论文思路:所谓蛋白质三级结构,可以简单地理解成构成蛋白质的所有原子的空间坐标。蛋白质的三级结构可以从其残基间的距离精确地重建;就好比知道教室里同学们两两之间的欧式距离,就能确定出每位同学的平面坐标(在考虑旋转、平移、镜像等变换下是唯一的),残基共进化已经成为估计残基间距离的主要原则。大多数现有的残基共进化分析方法采用间接策略,即从目标蛋白质的多重序列比对(MSA)中提取一些手工的特征,比如协方差矩阵,然后利用这些手工提取特征推断残基共进化。
这种间接方法并不能充分利用 MSA 所携带的信息,从而导致相当大的信息丢失和残差距离估计不准。在这里,我们发布了一个端到端的深度学习框架(称为 CopulaNet) ,直接从MSA学习残基共进化。
研究结果表明,CopulaNet 能够有效地预测蛋白质三级结构。对于31个自由建模 CASP 13域中的24个域,我们的方法比现有先进方法获得了更高的预测精度。这项研究代表了端到端预测残基间距和蛋白质三级结构的重要一步。我们期望这里提出的方法可以得到进一步发展和应用,为理解蛋白质功能提供结构信息。
论文链接:Nature Communications,https://www.nature.com/articles/s41467-021-22869-8
预测服务器链接:http://protein.ict.ac.cn/FALCON/
预测软件源代码下载链接:http://protein.ict.ac.cn/ProFOLD/
访谈对象:
鞠富松,论文一作,中科院计算所博士研究生
(蓝色为笔者提问)
这个实验方法主要的创新点在哪儿/strong>
鞠:其实最主要创新点就是我们对于其他以前的方法,比如说AlphaFold 1,以及别人的模型,它的输入依然是用传统统计模型计算出的结果,然后输出是一个蛋白的残基距离。现在我们输入不用统计模型了,我们输入用原始的同源序列,这是我们跟别人相比最本质的一个差别。我们用的数据并不依赖于那些统计模型的结果。
我们开发的“从头预测“算法ProFOLD,将CopulaNet预测得到的残基距离转化为势能函数,并通过最小化势能函数得到蛋白质的三级结构。
图3 用ProFOLD预测蛋白质三级结构示例。蛋白质:CASP13 FM类结构域T0950。红色:ProFOLD预测结构;绿色:天然态结构。TM-score=0.73
准确率是怎么来算的如 0.7、0.8。
鞠:类似一种结构上的相似度,越高越好。
卜:把两个三维的东西,经过一些旋转之后,最吻合的程度是怎么样常用TM-score、RMSD,或者GDT来度量。
图5 郑伟谋老师总结的对蛋白质折叠过程的认识
郑老师指导我们进行探索,进而郑老师总结了对蛋白质折叠机理的一系列认识。这是我们非常佩服他的地方,我们很多工作当中潜移默化都在受他的影响。比如局部结构和整体结构之间的关系;能量项那么多,哪种先起作用、哪种后起作用等等。这些观点和认识,对于我们设计预测方法,是非常重要的。
您认为跨学科协作的启示是什么/strong>
卜:我的感觉一定是要彻底地解放自己,不要把自己太局限于自己熟悉的领域,一定要以极大的兴趣去了解另外一个领域,这样才能做好交叉学科。
绝不能说,我们是计算机出身的,是学算法的,就认为自己就是个搞计算的,要对另外一个学科有好奇心和兴趣。现在我们也在设计生物学的实验,不要把自己太局限到自己是个计算机系的人,这是第一点。
第二点我觉得不同学科有不同的特色,像物理学家就有非常值得我们借鉴的特色。
物理学家有非常强烈的想要知道背后原因的动机,比如费曼,再比如写了《生物是什么》的薛定谔,影响了很多人,包括发现DNA双螺旋的Watson和Crick。而反观计算机系的人,尤其是近期搞AI的人,常常是不去追求 why的。我觉得我们搞计算机的,要向物理学家学习这种“求知”的精神,而不是仅仅刷榜。
附:蛋白质结构预测服务器FALCON2 http://protein.ict.ac.cn/FALCON2
图7 FALCON2蛋白质结构预测服务器预测实例。蛋白质:1ctfA
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!