FastRNABindR:快速准确预测蛋白质-RNA界面残基

paper

单位:宾夕法尼亚州立大学 信息科学与技术学院

Abstract

广泛的生物学过程,包括基因表达的调节、蛋白质的合成以及许多病毒的复制和组装都是由RNA-蛋白质相互作用介导的。然而,蛋白质-RNA复合物结构的实验测定是昂贵的,而且在技术上具有挑战性。因此,已经开发了许多计算工具来预测蛋白质-RNA界面。一些最先进的蛋白质-RNA界面预测因子依赖于基于位置特定评分矩阵(PSSM)的蛋白质序列编码。生成PSSM所需的计算工作量严重限制了蛋白质-RNA界面预测服务器的实用价值。在这项工作中,我们实验了两种方法,随机抽样和序列相似性缩减,以从UniRef100中5000多万个蛋白质序列中提取具有代表性的蛋白质序列参考数据库。我们的结果表明,随机抽样的数据库产生更好的PSSM配置文件(根据用于生成配置文件的命中次数、生成的配置文件到使用整个UniRef100数据生成的相应配置文件的距离,以及使用这些配置文件训练的机器学习分类器的准确性)。基于我们的结果,我们开发了FastRNABindR,这是RNABindR的改进版本,用于使用随机抽样的1%的UniRef100序列生成的PSSM图谱来预测蛋白质-RNA界面残基。据我们所知,FastRNABindR是唯一的蛋白质-RNA界面残基预测在线服务器,它需要为查询序列生成PSSM配置文件,并在每次提交时接受数百个蛋白质序列。我们为蛋白质-RNA界面残基分类任务确定最佳BLAST数据库的方法有可能大大加快蛋白质-蛋白质和蛋白质-DNA界面其他基于氨基酸序列的预测因子的实用价值。

Introduction

蛋白质-RNA相互作用在许多生物学过程中起着关键作用,包括蛋白质合成、DNA修复、DNA复制、基因表达调控和病毒复制[1-5]。

由于实验解决蛋白质-RNA复合物的3D结构的高成本和技术困难[6,7],所解决的结构的数量只占可能的蛋白质-RNA复合物的一小部分[8]。因此,已经开发了几种工具来计算预测蛋白质-RNA界面[8-10]。这些方法大致分为:i)基于结构的方法(例如,[11-15]);和基于序列的方法(例如,[9,16-22])。基于结构的方法将查询蛋白质的(已解决或预测的)未结合结构作为输入,而基于序列的方法将查询蛋白质的初级序列作为输入。最近的两项比较研究[8,9]表明,最先进的基于序列的蛋白质-RNA预测器(例如,使用基于位置特定计分矩阵(PSSM)的蛋白质序列表示的机器学习方法训练的那些)与基于结构的预测器相比具有竞争力。最近的一项比较研究[23]表明,基于PSSM的方法比基于氨基酸残基的理化特性的方法性能更好。

蛋白质的PSSM图谱是使用PSI-BLAST程序生成的,PSI-BLAST程序是NCBI BLAST包的一部分[24]。给定查询氨基酸序列,PSI-BLAST对照蛋白质序列的参考数据库(称为BLAST数据库)搜索查询序列,以确定查询序列(例如,HITS)的同源性,并使用收集的HITS和查询序列的多序列比对来生成PSSM简档。不幸的是,PSSM轮廓的生成非常耗时,因此限制了现有基于序列的方法在大规模数据上的实际应用。事实上,绝大多数的蛋白质-RNA界面预测方法,以在线 络服务器的形式实现,一次只能提交一个蛋白质序列(例如,参见BindN+[19]和PPRInt[20])。减少PSI-BLAST运行时间的一种方法是使用可以在由数万个处理器组成的高性能计算平台上执行的NCBI BLAST的并行实现(例如,mpiBLAST[25])。然而,并不是所有的研究人员都能接触到如此高性能的计算平台。

在此背景下,我们探索了一种减少PSI-BLAST运行时间的替代方法,即减小用于构建PSSM配置文件的BLAST数据库的大小。在这项工作中,我们解决了以下问题:(I)给定蛋白质序列的BLAST数据库(例如UniRef数据库[26])D,是否存在D的子集可以被PSI-BLAST使用而不会使由此产生的蛋白质-RNA界面预测器的预测性能明显恶化i)如果是这样的话,如何才能获得满足我们标准的最小可能的D子集ii)PSI-BLAST使用的序列参考数据库大小的减少如何转化为PSI-BLAST(以及因此依赖于PSI-BLAST的蛋白质-RNA接口预测器)所需的内存和运行时间的相应减少们所知,这是第一次系统地研究BLAST数据库的大小与PSI-BLAST的性能(在内存使用和运行时间方面)、生成的PSSM的质量以及所开发的基于PSSM的蛋白质-RNA界面预测器的准确性之间的成对关系。基于我们的结果,我们开发并实现了FastRNABindR,这是原始RNABindR蛋白质-RNA接口预测服务器的改进版本[9]。FastRNABindR比RNABindR快两个数量级,预测性能没有任何下降。FastRNABindR已作为在线 络服务器提供给科学界, 址为:http://ailab.ist.psu.edu/FastRNABindR/。与RNABindR将提交的序列限制在最多20个不同,FastRNABindR接受每份提交的最多500个蛋白质,并在大约一小时内返回预测结果。这项研究为显著加快广泛的蛋白质序列分类和序列标记任务奠定了基础,这些任务利用了基于PSSM的查询序列的表示,包括蛋白质-DNA界面残基预测[27,28],蛋白质溶剂可及性预测[29-32],蛋白质动力学预测[33,34]和候选疫苗[35,36],以促进对大量蛋白质的高通量分析。

Materials and Methods

Data

蛋白质-RNA数据集。对于交叉验证实验,我们使用了基准数据集RB198[9]。RB198数据集是从PDB[37]于2010年5月通过提取PDB中的所有蛋白质RNA复合物并过滤出不符合以下标准的复合物而得到的:i)结构分辨率小于3.5;ii)蛋白质链的长度必须至少为40个氨基酸;iii)RNA链的长度必须至少为5个核苷酸;iv)蛋白质链中的界面残基的数量必须至少为3个残基。如果一个氨基酸残基在结合的RNA中的任何原子的5内至少包含一个原子,则该氨基酸残基被认为是一个界面;v)蛋白质链与数据集中的所有其他链的序列一致性最多不应超过30%。数据集及其标识的接口可在以下 址公开获得:http://ailab1.ist.psu.。EDU/RNABindR/rb198seq.txt.。为了运行5次交叉验证实验[38],我们将RB198数据集中的序列分成大小几乎相等的五个子集(参见S1文本)。表1列出了每个RB198子集中的接口和非接口数量。

对于独立测试评估,我们使用基准测试集RB44[8,9]。RB44是PDB在2011年1月1日至4月28日期间发布的44个RNA结合蛋白的数据集。这个数据集中没有两条蛋白质链的序列一致性超过40%[8,9]。我们使用CD-HIT程序[39]对RB44进行的分析表明,在序列相似性阈值为30%时,RB44是非冗余的。蛋白质序列中的RNA结合残基已经使用与RB198数据集相同的截止距离进行了鉴定。用识别的界面残基标注的数据集可在http://ailab1.ist.psu.edu/RNABindRPlus/rb44.txt上公开获得。

为了将我们最终的模型FastRNABindR与其他蛋白质-RNA界面预测服务器进行比较,我们使用了RB111基准数据集[17]。与RB44一样,在30%的序列同一性阈值下,RB111也是非冗余的(使用CD-HIT程序[39])。它由111条蛋白链组成,这些蛋白链是从2010年6月至2010年12月和2011年5月至2014年3月期间存放在PDB的蛋白质-RNA复合物中提取的。表1提供了RB44和RB111数据集中的界面残基和非界面残基的数量。

值得注意的是,虽然两个独立的测试集RB44和RB111在30%的序列同一性下是非冗余的,但来自RB44或RB111的任何测试序列与我们训练数据集中的序列RB198之间的序列同一性都不到40%[17]。为了能够与以前的研究[9,17]进行直接比较,我们使用了与[9,17]中使用的设置相同的设置。

上述度量依赖于用于将预测的类别概率转换为二进制类别标签的分类阈值。相反,接收器工作特性(ROC)曲线[51]描述了分类器在所有可能阈值上的性能。ROC曲线是一个二维曲线图,其中真阳性率在Y轴上绘制,假阳性率在X轴上绘制。ROC曲线上的每个点代表分类器在特定阈值选择下的行为。ROC曲线下面积(AUC)相当于随机选择的正例的排名高于随机选择的反例的概率。任何高于0.5的AUC分数都被认为比随机猜测要好。理想分类器的AUC应等于1。在结果部分,我们将讨论仅限于AUC,并在支持信息(S2文本)中 告其他与阈值相关的指标。

我们通过记录生成给定数据集(例如RB198和RB44)的PSSM配置文件所用的总运行时间和给定数据集的整个执行期间使用的最大内存量来评估PSI-BLAST程序的性能。时间和内存测量是使用Linux实用程序命令time和top进行的。所有简档生成实验(以及使用KClust[40]进行的序列相似性降低)都是在具有128 GB RAM的双八核处理器机器(Intel Xeon E5-2690)上使用单个处理器进行的。每个处理器具有2.9 GHz时钟速度和20MB高速缓存。

Results and Discussions

PSSM配置文件生成限制了现有方法的适用性

表3总结了满足以下标准的现有蛋白质-RNA界面残基预测方法:i)该方法以在线 络服务器的形式可用;ii)该方法使用PSI-BLAST为提交的查询蛋白质生成PSSM简档。在列出的7台服务器中,只有3台允许批量提交(即提交多个查询蛋白)。RBScore[52]最多可接受5个查询序列,而RNABindR v2[9]和RNABindRPlus[17]最多可接受20个查询序列。其中许多服务器的现有文档都承认PSI-BLAST搜索的计算要求会影响服务器的可用性。服务器通常在指定的时间范围内限制每个用户允许的查询序列的数量,或者不允许一次包含多个查询蛋白的批量提交。例如,BindN+SERVER[19],它将提交限制为一个

Sequence在其提交页面中指出,“由于PSI-BLAST搜索,BindN+的运行速度比BindN慢。请耐心等待。“。表3还显示,7种方法中有6种对超过5000万个蛋白质序列的数据库运行PSI-BLAST。在本节的其余部分中,我们根据经验表明,使用极大的BLAST数据库会严重影响PSI-BLAST的计算要求(在运行时间和内存使用方面),而不会相应地改进使用生成的PSSM配置文件构建的分类器的预测性能。

数据越多并不总是越好

表4显示了使用UR100及其变体生成的RB198数据集的10种不同的基于PSSM的表示形式上使用5折交叉验证估计的四个分类器的AUC。值得注意的是,当使用通过对最大的数据库UR100运行PSI-BLAST获得的PSSM表示来训练分类器时,四个分类器都没有达到其最佳AUC(使用交叉验证估计)。当使用RB198训练四个分类器并使用RB44测试集进行测试时,同样的结论也成立(参见表5)

表8 告了FastRNABindR与使用PSSM简档表示氨基酸序列中的界面和非界面残基的3个蛋白质-RNA界面预测服务器(RNABindR v2[9]、BindN+[19]和PPRInt[20])以及2个基于结构的蛋白质-RNA界面预测服务器(KYG[11]和PRIP[13])使用RB111作为独立测试集的比较结果。有趣的是,FastRNABindR在 告的4个性能指标中有3个优于RNABindR v2。我们注意到,没有一种方法比使用四种观察到的性能度量的所有其他方法性能更好。由于数据不平衡(RB111数据有34255个非界面残基和3,305个界面残基),较高的准确率可能与灵敏度较低(例如,低真阳性率)的预测因子有关。在这种情况下,MCC通常比ACC[49]提供更平衡的性能评估。在6个预测服务器中,FastRNABindR和BindN+的MCC最高,为0.24。然而,由于PSI-BLAST搜索针对BindN+使用的极大的NCBI nr数据库的运行时间很长,BindN+服务器将用户提交限制为每次提交只有一个序列。另一方面,FastRNABindR服务器每次提交最多接受500个序列。

表8中的结果应视为不同蛋白质-RNA接口预测服务器之间的比较。从用户的角度来看,这样的比较很有趣,也有助于理解不同工具的优缺点。表8中 告的预测值是使用不同的训练数据开发的,并且这些工具的开发者做出了不同的设计决定(例如,定义界面残基的距离截止)。因此,将这些结果解释为这些服务器的底层方法之间的直接比较是不合适的。公平和直接的方法比较需要统一的实验设置,这仅适用于比较RNABindR v2和FastRNABindR。

Conclusions

自从20世纪80年代第一个生物分子序列数据库问世以来,同源性搜索已经成为生物信息学中最常见和最重要的任务之一。用于同源性搜索的序列数据库(即,NCBI BLAST数据库)定期更新以提高其覆盖率。目前,NCBI nr BLAST数据库有超过7800万个蛋白质序列,随着正在进行的测序项目产生更多的数据,这个数字预计还会进一步增加。PSSM图谱的生成是同源搜索的一个重要应用,蛋白质序列的PSSM编码是开发蛋白质功能位点预测因子的一种广泛使用的特征表示方法。由于BLAST数据库的巨大规模,生成PSSM配置文件是许多生物信息学工具的计算瓶颈。在这项工作中,我们试验了两种方法来减小BLAST数据库的大小,即随机抽样和相似度降低,并且表明随机抽样的数据库在用于生成概要文件的命中数方面提供了更好的PSSM概要文件,并且在用于生成概要文件的命中率方面提供了更好的PSSM概要文件该配置文件与使用Full BLAST数据库生成相应配置文件之间的距离。基于我们的发现,我们开发并实现了FastRNABindR,这是一个准确、快速地预测蛋白质-RNA界面残基的工具。FastRNABindR仅使用1%的UniRef100数据来生成PSSM配置文件。随着BLAST数据库大小的大幅减小,我们 告的计算时间提高了100倍以上,而预测性能比使用整个UniRef100数据获得的性能要好,或者至少与我们在实验中考虑的另外八个UniRef100变体所观察到的最佳性能一样好。

在这项工作中,我们评估了使用PSI-BLAST搜索针对UR100数据库及其变体生成的PSSM配置文件的质量,使用了三个性能指标:PSI-BLAST运行时间;PSI-BLAST内存使用率;以及使用PSSM配置文件作为输入特征开发的蛋白RNA接口预测器的预测性能。分析用于生成PSSM简档的蛋白质序列(PSI-BLAST HITS)将是很有趣的。这样的分析可能有助于开发提高PSSM图谱质量的方法,这些图谱将用作蛋白质-RNA界面预 器的输入特征。正在进行的工作旨在:i)探索更复杂的方法(例如,基于蛋白质序列的聚类分析),以确定特定分类任务的最佳BLAST数据库;ii)应用所提出的方法,开发可靠但计算高效的方法,用于相关氨基酸序列标记(例如,蛋白质-DNA界面残基预测)和序列分类(例如,识别RNA结合蛋白)。(Iii)探索是否存在可用于多个任务(例如蛋白质RNA、蛋白质-DNA和蛋白质-蛋白质界面预测)的单个最佳BLAST数据库,或者最佳BLAST数据库是否依赖于任务;iv)开发并行或分布式实现和/或高级数据结构,以进一步减少方法的运行时间和存储器使用,以便支持超高通量分析。

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11610 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月5日
下一篇 2021年1月5日

相关推荐