AlphaFold 和 AI 蛋白质折叠革命的下一步是什么

十多年来,分子生物学家 Martin Beck 团队一直在努力拼凑世界上最难的拼图游戏之一:人类细胞中最大分子机器的详细模型。

这种被称为核孔复合体的庞然大物控制着分子进出细胞核的流动,也就是基因组所在的地方。每个细胞中都存在数百个这样的复合物。每个都由超过 1,000 种蛋白质组成,这些蛋白质在穿过核膜的孔周围形成环。

这 1,000 块拼图由 30 多种蛋白质构建块组成,这些蛋白质构建块以多种方式交织在一起。使难题变得更加困难的是,这些构建块的实验确定的 3D 形状是从许多物种中收集的结构的杂烩,所以不要总是很好地融合在一起。拼图盒子上的图片——核孔复合体的低分辨率 3D 视图——缺乏足够的细节来知道有多少部分精确地组合在一起。

2016 年,由位于德国法兰克福马克斯普朗克生物物理研究所(MPIB)的 Beck 领导的一个团队 告了一个模型,该模型涵盖了大约 30% 的核孔复合体和大约 30 个构建单元中的一半,称为核蛋白。

然后,2021 年 7 月,总部位于伦敦的 DeepMind 公司(谷歌母公司 Alphabet 的一部分)公开了一款名为 AlphaFold 的人工智能(AI)工具。该软件可以从蛋白质的基因序列中预测蛋白质的 3D 形状,并且在很大程度上具有精确性。这改变了 Beck 的任务,以及成千上万其他生物学家的研究。

今年,DeepMind 计划发布总计超过 1 亿个结构预测。这几乎是所有已知蛋白质的一半,是蛋白质数据库(PDB)结构库中实验确定的蛋白质数量的数百倍。

AlphaFold 部署了深度学习神经 络:受大脑神经线路启发的计算架构,可识别数据中的模式。它已经接受了 PDB 和其他数据库中数十万个实验确定的蛋白质结构和序列的训练。

面对一个新序列,它首先在数据库中寻找相关序列,这些序列可以识别出倾向于一起进化的氨基酸,表明它们在 3D 空间中很接近。现有相关蛋白质的结构提供了另一种估计新序列中氨基酸对之间距离的方法。

AlphaFold 在尝试对氨基酸的 3D 位置进行建模时来回迭代来自这些平行轨迹的线索,并不断更新其估计值。

专家表示,该软件在机器学习研究中的新思想应用似乎是 AlphaFold 如此出色的原因——特别是,它使用一种称为「注意力」的人工智能机制来确定哪些氨基酸连接在任何时候对其任务最重要 .

该 络对相关蛋白质序列信息的依赖意味着 AlphaFold 存在一些局限性。它并非旨在预测突变(例如导致疾病的突变)对蛋白质形状的影响。它也没有被训练来确定在其他相互作用的蛋白质或药物等分子存在的情况下蛋白质如何改变形状。

但它的模型附带的分数可以衡量 络对其预测蛋白质每个氨基酸单元的信心——研究人员正在调整 AlphaFold 的代码以扩展其功能。

据 DeepMind 称,到目前为止,已有超过 40 万人使用了 EMBL-EBI 的 AlphaFold 数据库。还有 AlphaFold 的「超级用户」:研究人员在自己的服务器上安装了软件,或者转向基于云的 AlphaFold 版本来预测不在 EMBL-EBI 数据库中的结构,或者为该工具设想新用途。

求解结构

AlphaFold 解析结构的能力已经给生物学家留下了深刻的印象。「根据我目前所见,我非常信任 AlphaFold。」丹麦奥胡斯大学的结构生物学家 Thomas Boesen 说。

该软件已成功预测了 Boesen 中心已确定但尚未发表的蛋白质形状。「这对我来说是一个很大的验证。」他说。

他和奥胡斯微生物生态学家 Tinantl-Temkiv 正在使用 AlphaFold 来模拟促进冰形成的细菌蛋白质的结构——这可能有助于云中冰的冷却效果——因为生物学家还无法通过实验完全确定这些结构。

斯德哥尔摩大学的蛋白质生物信息学家 Arne Elofsson 表示,只要一种蛋白质卷曲成一个明确定义的 3D 形状——而且并非全部如此——AlphaFold 的预测就很难被击败。「这是一种一键式解决方案,可能是您将获得的最佳模型。」

Elofsson 说,在 AlphaFold 不太自信的地方,「它非常擅长告诉你什么时候它不起作用」。在这种情况下,预测的结构可能类似于浮动的意大利面条。

这通常对应于缺乏确定形状的蛋白质区域,至少在隔离时是这样。这种本质上无序的区域——约占人类蛋白质组的三分之一——可能只有在存在另一种分子(如信 伙伴)时才能得到明确定义。

2021 年 12 月,Baker 团队 告说,在细菌中表达了 129 种这些幻觉蛋白,并发现其中约五分之一折叠成类似于其预测形状的东西。「这确实是第一次证明你可以使用这些 络设计蛋白质。」Baker 说。他的团队现在正在使用这种方法来设计做有用事情的蛋白质,例如催化特定的化学反应,方法是指定负责所需功能的氨基酸,并让 AI 幻想生成其余部分。

Kosinski 将团队当前的核孔复合体地图视为实验和模拟的起点,这些实验和模拟检查了孔复合体的功能,以及它如何在疾病中出现故障。

AlphaFold 的限制

对于 AlphaFold 取得的所有进展,科学家们表示,重要的是要清楚它的局限性——特别是因为不专门预测蛋白质结构的研究人员会使用它。

尝试将 AlphaFold 应用于破坏蛋白质自然结构的各种突变,包括与早期乳腺癌相关的突变,已证实该软件无法预测蛋白质新突变的后果,因为没有进化相关的序列可供检查。

AlphaFold 团队现在正在考虑如何设计神经 络来处理新的突变。Jumper 预计这将需要 络更好地预测蛋白质如何从展开状态变为折叠状态。

纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 说,这可能需要仅依靠它所学到的蛋白质物理学知识来预测结构的软件。「我们感兴趣的一件事是在不使用进化信息的情况下从单个序列进行预测。」他说,「这是一个尚未解决的关键问题。」

AlphaFold 也被设计用来预测一个单一的结构,尽管它已经被黑客破解了不止一个。但是许多蛋白质具有多种构象,这对其功能可能很重要。「AlphaFold 不能真正处理可以采用不同构象的不同结构的蛋白质,」Schueler-Furman 说。并且预测是针对孤立结构的,而许多蛋白质与配体(如 DNA 和 RNA)、脂肪分子和矿物质(如铁)一起发挥作用。「我们仍然缺少配体,我们缺少关于蛋白质的其他一切。」Elofsson 说。

AlQuraishi 说,开发这些下一代神经 络将是一个巨大的挑战。AlphaFold 依赖于数十年的研究,这些研究产生了 络可以学习的蛋白质实验结构。目前无法获得如此大量的数据来捕捉蛋白质动力学,或者蛋白质可以与之相互作用的数万亿个小分子的形状。Jumper 补充说,PDB 包括蛋白质与其他分子相互作用时的结构,但这仅捕获了一小部分化学多样性。

研究人员认为,他们需要时间来确定如何最好地使用 AlphaFold 和相关的人工智能工具。AlQuraishi 看到了电视早期的相似之处,当时一些节目由广播电台组成,只是阅读新闻。「我认为我们将找到我们尚未想到的结构的新应用。」

AlphaFold 革命的终点在哪里,谁也说不准。「事情变化太快了。」Baker 说,「即使在明年,我们也将看到使用这些工具取得的重大突破。」

EMBL-EBI 的计算生物学家 Janet Thornton 认为,AlphaFold 的最大影响之一可能只是说服生物学家对计算和理论方法的见解更加开放。「对我来说,革命就是思维方式的改变。」她说。

AlphaFold 革命激发了 Kosinski 的远大梦想。他认为受 AlphaFold 启发的工具不仅可用于对单个蛋白质和复合物进行建模,还可以对整个细胞器甚至细胞进行建模,直至单个蛋白质分子的水平。「这是我们未来几十年的梦想。」

相关 道:https://www.nature.com/articles/d41586-022-00997-5

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联 (城市)大脑研究计划,构建互联 (城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和 告。

8ee36b15e3074022143ee04d5e117448.png

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能机器学习工具包Scikit-learn210415 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年3月12日
下一篇 2022年3月12日

相关推荐