山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题（十三）

2021SC@SDUSC

基于人工智能的多肽药物分析问题

主题：蛋白质预训练模型（7）

原始下游预测

与其他蛋白质语言模型的对比

关于ProtT5-XL-UniRef50（称为ProtT5-XL-U50）的重要注意事项：所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量，如下所述。此外，还以半精度模式(model.half())进行了实验，以加快嵌入生成的速度。以半精度运行时，在任何实验中均未观察到性能下降。

论文阅读

蛋白质语言模型到达上限了吗/h5>

将NLP技术应用到蛋白质中，为以一种自我监督、数据驱动的方式从蛋白质中提取信息提供了新的机会。新的蛋白质表达可能补充现有的解决方案，当将进化信息和机器学习结合起来时最为成功。在这里，我们首次展示了从蛋白质LMs输入到相对简单的监督学习模型的嵌入可以在不使用EI和不太优化监督训练管道的情况下达到类似的性能水平。然而，与使用进化信息的传统模型相比，蛋白质LM的推理速度的提高十分显著，以至于30年来首次在商品硬件上实现大规模预测。例如，性能最好的型 ProtT5-XL-U50可以在Nvidia TitanV上运行，vRAM为12GB(详情请参阅方法)。

然而，考虑到这里描述的实验和在之前的工作中，我们可能会期望蛋白质LM在使用masked语言建模(或自回归前训练)时能够学习的上限。虽然这项工作明确讨论了达到这一极限的可能性，但我们不能最终提供一个答案。我们可以得出三个发现。
(1)更少噪声和冗余语料库(如UniRef50)在更大但噪声和冗余语料库(如BFD)上得到改善。
(2)在资源有限的情况下，最重要的是将资源用于足够长的训练，因为在训练前看到的样本数量与下游任务的预测性能相关。最终，这似乎源于足够的模型大小和样本吞吐量之间的权衡。
(3)双向模型优于单向模型。然而，考虑到蛋白质LM在回顾这项工作的过程中所取得的进展，我们还没有看到任何证据表明蛋白质LM达到了极限。

以下问题的答案可能会推动现状。

(1) BERT或Albert提供的辅助任务，如下一句或句子顺序预测，是否适合蛋白质序列个建议可能是使用结构信息或进化关系。

(2)变压器蛋白LM训练的效率是否可以通过稀疏变压器或Reformer模型最近引入的局部敏感哈希(LSH)或线性变压器最近的工作来提高/p>

(3)为了获得更好的结果，哪些数据集应该最优地使用预处理、简化和训练批量抽样/p>

(4)将受监督的培训管道调整到特定的任务，会有多大的改进br> 我们将二级结构或定位预测更多地作为展示蛋白质LM成功的代理，而不是作为一个独立的末端。

(5) EI和AI的结合会带来未来最好的蛋白质预测，还是单蛋白质预测的优势(速度、精度)胜出br> 事实上，单蛋白质预测也有更精确的优势，因为它们不提供蛋白质家族的隐含平均值。

总的来说，我们的结果表明，将用于训练蛋白质LM的HPC解决方案与随后的监督预测方法的训练相结合，可以扩大到该领域迄今为止使用的最大数据集。只有结合这些不同的结构域，我们才能证明蛋白质LM可以达到与最先进的结合EI和AI的方法相同的性能，而无需利用多重序列比对。

结论

在这里，我们引入了许多新的蛋白质语言模型(LM)，并证明从最后的LM层提取的嵌入捕获了与蛋白质结构和功能相关的约束。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！