2021SC@SDUSC
基于人工智能的多肽药物分析问题
主题:蛋白质预训练模型(7)
原始下游预测
与其他蛋白质语言模型的对比

关于ProtT5-XL-UniRef50(称为ProtT5-XL-U50)的重要注意事项:所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量,如下所述。此外,还以半精度模式(model.half())进行了实验,以加快嵌入生成的速度。以半精度运行时,在任何实验中均未观察到性能下降。
论文阅读
蛋白质语言模型到达上限了吗/h5>
将NLP技术应用到蛋白质中,为以一种自我监督、数据驱动的方式从蛋白质中提取信息提供了新的机会。新的蛋白质表达可能补充现有的解决方案,当将进化信息和机器学习结合起来时最为成功。在这里,我们首次展示了从蛋白质LMs输入到相对简单的监督学习模型的嵌入可以在不使用EI和不太优化监督训练管道的情况下达到类似的性能水平。然而,与使用进化信息的传统模型相比,蛋白质LM的推理速度的提高十分显著,以至于30年来首次在商品硬件上实现大规模预测。例如,性能最好的型 ProtT5-XL-U50可以在Nvidia TitanV上运行,vRAM为12GB(详情请参阅方法)。
然而,考虑到这里描述的实验和在之前的工作中,我们可能会期望蛋白质LM在使用masked语言建模(或自回归前训练)时能够学习的上限。虽然这项工作明确讨论了达到这一极限的可能性,但我们不能最终提供一个答案。我们可以得出三个发现。
(1)更少噪声和冗余语料库(如UniRef50)在更大但噪声和冗余语料库(如BFD)上得到改善。
(2)在资源有限的情况下,最重要的是将资源用于足够长的训练,因为在训练前看到的样本数量与下游任务的预测性能相关。最终,这似乎源于足够的模型大小和样本吞吐量之间的权衡。
(3)双向模型优于单向模型。然而,考虑到蛋白质LM在回顾这项工作的过程中所取得的进展,我们还没有看到任何证据表明蛋白质LM达到了极限。
以下问题的答案可能会推动现状。
(1) BERT或Albert提供的辅助任务,如下一句或句子顺序预测,是否适合蛋白质序列个建议可能是使用结构信息或进化关系。
(2)变压器蛋白LM训练的效率是否可以通过稀疏变压器或Reformer模型最近引入的局部敏感哈希(LSH)或线性变压器最近的工作来提高/p>
(3)为了获得更好的结果,哪些数据集应该最优地使用预处理、简化和训练批量抽样/p>
(4)将受监督的培训管道调整到特定的任务,会有多大的改进br> 我们将二级结构或定位预测更多地作为展示蛋白质LM成功的代理,而不是作为一个独立的末端。
(5) EI和AI的结合会带来未来最好的蛋白质预测,还是单蛋白质预测的优势(速度、精度)胜出br> 事实上,单蛋白质预测也有更精确的优势,因为它们不提供蛋白质家族的隐含平均值。
总的来说,我们的结果表明,将用于训练蛋白质LM的HPC解决方案与随后的监督预测方法的训练相结合,可以扩大到该领域迄今为止使用的最大数据集。只有结合这些不同的结构域,我们才能证明蛋白质LM可以达到与最先进的结合EI和AI的方法相同的性能,而无需利用多重序列比对。
结论
在这里,我们引入了许多新的蛋白质语言模型(LM),并证明从最后的LM层提取的嵌入捕获了与蛋白质结构和功能相关的约束。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!