同源建模法预测蛋白质结构入门指南

本期文章共3889字，阅读时间约6分钟

什么是同源建模？

同源建模也称为比较建模，根据与已知结构的序列同源性预测蛋白质结构。它基于“如果两个蛋白质具有足够高的序列相似性，它们很可能具有非常相似的三维结构”的原理。因此，它依赖于一种或多种可能类似于查询序列结构的已知蛋白质结构的鉴定，以及依赖于将查询序列中的残基映射到模板序列中的残基的比对的产生。因此，如果蛋白质序列之一具有已知结构，则可以以高置信度将该结构复制到未知蛋白质。

同源建模进一步有助于：

具有更高稳定性或新功能的蛋白质的合理设计

分析蛋白质功能、相互作用、抗原行为

基于结构的药物设计

由于从 X 射线晶体学和蛋白质 NMR 等方法中获取每种感兴趣蛋白质的实验结构既困难又耗时，因此同源性建模可以提供有用的结构模型，用于生成关于蛋白质功能的假设并指导进一步的实验工作。

同源建模软件

1.SYBYL

SYBYL是一款用于药物小分子与生物大分子科学领域分子模拟软件。可以模拟的内容包括药物小分子的建模、构象分析、三维定量构效关係研究、药效团建模、虚拟筛选、生物大分子的同源模建、活性位点分析、数据库搜索等。sybyl是常用的同源模建软件。

2.Modeller

Modeller，是一款著名的蛋白质三维结构同源模建、比较建模软件。Modeller可根据用户提供的序列和已知的同源蛋白结构，自动生成不含氢原子的模型。通过满足空间约束，Modeller实现了蛋白质的比较建模。Modeller功能强大、可以调整的参数非常多，缺点就是对新手来说并不是特别友好。Modeller 有Windows和Linux版本。

3.SWISS-MODEL

Swiss -model是一个基于ExPASy web的同源模建服务器，其目的是为了让全世界所有生命科学研究人员都能接触蛋白质建模。Swiss -model共为用户提供了3种操作模式，分别为Automatic mode、Alignment mode和Project mode。

4.Discovery Studio

Discovery Studio是一款用于生命科学领域的分子建模、模拟软件。Discovery Studio实现的功能有：蛋白质的表征（包括蛋白-蛋白相互作用）、同源建模、分子力学计算和分子动力学模拟、基于结构药物设计工具（包括配体-蛋白质相互作用、全新药物设计和分子对接）、基于小分子的药物设计工具（包括定量构效关系、药效团、数据库筛选、ADMET）和组合库的设计与分析等。

5.MOE

MOE可应用于许多领域，如生物信息学中的同源序列标志、对比；化学信息学中的药效团定位、三位结构查询、构象数据库、结构相似性与差异性表征；高通量研究中的高通量筛选分析、二叉树构效关系研究、组合化学分子库合成；分子设计中的分子对接、碎片分析、活性位点探测；蛋白质模拟中的同源建模、力学分析、突变进化；分子模拟中的动力学研究、分子表面研究、力场和静电势分析。

SWISS-MODEL软件的使用

在 SWISS-MODEL 中，默认建模工作流程包括以下主要步骤：输入数据、模板搜索、模板选择、模型构建和模型质量评估。

首先我们从NCBI数据库中获取蛋白质的结构序列，为了贴合本篇文章主题，关于数据库的使用将会在其他篇中介绍。

进入SWISS-MODEL 站后，点击 “Strat Modelling”开始

然后将氨基酸序列粘贴到框中，也可以通过单击”Upload Target Sequence File”上传目标序列。这里我使用的是鼠伤寒沙门氏菌GyrA的氨基酸序列。序列如下：

>tr|A0A0D6FCL4|A0A0D6FCL4_SALTM DNA gyrase subunit A OS=Salmonella typhimurium OX=90371 GN=gyrA PE=3 SV=1

MSDLAREITPVNIEEELKSSYLDYAMSVIVGRALPDVRDGLKPVHRRVLYAMNVLGNDWN

KAYKKSARVVGDVIGKYHPHGDSAVYDTIVRMAQPFSLRYMLVDGQGNFGSIDGDSAAAM

RYTEIRLAKIAHELMADLEKETVDFVDNYDGTEKIPDVMPTKIPNLLVNGSSGIAVGMAT

NIPPHNLTEVINGCLAYIDNEDISIEGLMEHIPGPDFPTAAIINGRRGIEEAYRTGRGKV

YIRARAEVEADAKTGRETIIVHEIPYQVNKARLIEKIAELVKDKRVEGISALRDESDKDG

MRIVIEVKRDAVGEVVLNNLYSQTQLQVSFGINMVALHHGQPKIMNLKDIISAFVRHRRE

VVTRRTIFELRKARDRAHILEALAIALANIDPIIELIRRAPTPAEAKAALISRPWDLGNV

AAMLERAGDDAARPEWLEPEFGVRDGQYYLTEQQAQAILDLRLQKLTGLEHEKLLDEYKE

LLEQIAELLHILGSADRLMEVIREEMELIRDQFGDERRTEITANSADINIEDLISQEDVV

VTLSHQGYVKYQPLTDYEAQRRGGKGKSAARIKEEDFIDRLLVANTHDTILCFSSRGRLY

WMKVYQLPEASRGARGRPIVNLLPLEANERITAILPVREYEEGVNVFMATASGTVKKTAL

TEFSRPRSAGIIAVNLNDGDELIGVDLTSGSDEVMLFSAAGKVVRFKEDAVRAMGRTATG

VRGIKLAGDDKVVSLIIPRGEGAILTVTQNGYGKRTAADEYPTKSRATQGVISIKVTERN

GSVVGAVQVDDCDQIMMITDAGTLVRTRVSEISVVGRNTQGVILIRTAEDENVVGLQRVA

EPVDDEELDAIDGSVAEGDEDIAPEAESDDDVADDADE

然后点击“Build model” 进行同源建模，在这里需要告诉大家，如果目标序列与模板序列一致度极高，那么同源建模法是最准确的方法。如果一致度能达到30%，那么模型的准确度就可以达到80%，模型可以用于寻找功能位点，以及推测功能关系等。如果一致度能达到50%，那么模型的准确度就可以达到95%，可以根据模型设计定点突变实验，设计晶体结构自转，辅助完成真实结构的测定。如果一致度能达到70%以上，我们可以认为预测模型完全代表真实结果，可以用来分子筛选，分子对接，药物设计结构功能研究。特殊情况，虽然序列一致度达到很高水平，但是结构却并不相同。（这种情况比较少见，但需要注意）。

显示结果，选择”Model 02″，因为它具有最高 (96.57%) 的sequence identity以及相当大的coverage。

在这里给大家介绍两种评分标准，GMQE（全球模型质量估计）是一种结合目标-模板对齐方式和模板搜索方法的属性的质量估计。所得的GMQE分数表示为0到1之间的数字，反映了使用该对齐方式和模板构建的模型的预期准确性以及目标的覆盖范围。数字越高表示可靠性越高。

QMEAN该模型的得分可与相似大小的实验结构所期望的得分相媲美。0值附近的QMEAN 得分表明模型结构与相似大小的实验结构之间具有良好的一致性。分数为-4.0或以下表示模型的质量较低。

大家可能对下面这个图心存疑惑，这是拉氏图（又名 Ramachandran 图）是一种使蛋白质结构中，主链氨基酸残基的二面角 ψ 和 φ 可视化的图。同时也可以反映出该蛋白质的构象是否合理。图中白色区域就是构象不合理的区域。

总结

SWISS-MODEL这样既有友好的页界面又是全自动的服务器，不需要复杂的软件包或者下载巨大的数据库，就能生成可靠的模型。但是它还是有一些不足的地方：1.当用A序列来对B建模时，如果A序列长度短于B。则这个站不能自动对A进行补齐。2.此站不能对相似度低于30%的蛋白质进行建模。关于这些问题，笔者将会在后续的进阶篇进行讲解，敬请期待。

参考资料：1.Xiong J. (2006). Essential Bioinformatics. Texas A & M University. Cambridge University Press.

2.Arthur M Lesk (2014). Introduction to bioinformatics. Oxford University Press. Oxford, United Kingdom

4、突破研发瓶颈，是什么限制了AI制药的发展进程

版权信息

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

同源建模法预测蛋白质结构入门指南

相关推荐