ToxinPred2: an improved method for predicting toxicity of proteins
期刊:Briefings in Bioinformatics
中科院分区:2区
影像因子:13.994
web 站:https://webs.iiitd.edu.in/raghava/ toxinpred2/
Github:https://github.com/raghavagps/toxinpred2
DOI:https://doi.org/10.1093/bib/bbac174
发布日期:2022年5月20日
目录
摘要
1. 背景
2. 方法与数据集
2.1数据集
2.2 方法
2.2.1 特征提取:Pfeature
2.2.2 BLAST
2.2.3 Motif
3. 结果
4.结论
摘要
蛋白质/肽已证明是各种疾病有希望的治疗剂。但是,毒性是基于蛋白质/肽的治疗的障碍之一。当前的研究描述了一种基于Web的工具ToxinPred2,用于预测蛋白质的毒性。这是用于预测肽和小蛋白质的毒性的毒素蛋白质的更新。该方法已在瑞士普罗特(Swissprot)最近发布的三个数据集上进行了培训,测试和评估。为了提供公正的评估,我们对80%的数据进行了内部验证,其余20%的数据进行了外部验证。我们已经实施了以下技术来预测蛋白质毒性。 (i)基于本地局部搜索工具的基本相似性,(ii)主题出现以及基于类识别的主题搜索和(iii)预测模型。相似性和基于基序的技术实现了正确预测的高可能性,其灵敏度/覆盖范围差,而基于机器学习技术的模型则以相当高的精度实现了平衡敏感性和特异性。最后,我们开发了一种混合方法,该方法结合了所有三种方法,混合的方法就是两种软件进行蛋白质预测然后再结合RF分类器并在0.99左右的AUC,MCC在验证数据集上为0.91,结合了AAC的特征提取采用RF机器学习的方法ACC达到了0.8637.
1. 背景
蛋白质和肽是自然存在的分子,在体内发挥各种功能和过程,对于维持细胞机制至关重要[1]。它们的异常活性参与了各种疾病,包括癌症,神经退行性疾病和糖尿病[2]。质/肽的药物发现和发育中存在某些主要问题,例如毒性,免疫原性和稳定性。由于这个原因,评估蛋白质/肽的毒性特性对于将其作为药物靶标是非常必要的。毒素是对身体产生有害作用的潜物质,存在于自然植物中也可以由微生物产生,如果由动物产生致命的毒性比如蝎毒蛇毒,大致的情况一致。
图1 相关生物的毒性
开发用于预测肽,蛋白质和小分子的广泛毒性的计算工具列表
图2 相关毒性预测统计表
2. 方法与数据集
2.1数据集
图3 数据集
2.2 方法
2.2.1 特征提取:Pfeature
一个在线的web服务器:
Pfeature: A web server for computing protein and peptide features
在这项研究中,使用了一个独立的工具Pfeature来生成广泛的特征,如蛋白质序列的组成和基于进化信息的特征。使用Pfeature的基于合成的特征模块,针对所有三个数据集的每个序列计算9163个特征的向量。每个特征的详细信息,以及向量的长度,在S1补充表中列出(并未找到补充文件)。
2.2.2 BLAST
基本局部比对搜索工具(BLAST版本-2.2.29+)是一个广泛用于注释核苷酸和蛋白质序列的程序[36]。在这项研究中,我们基于蛋白质序列与有毒和无毒序列的相似性,将其用于毒素的鉴定。使用蛋白质-蛋白质BLAST,创建了基于相似性的搜索模块,在该模块中,针对毒素和非毒素的数据库搜索查询序列。
为了提取给定蛋白质的进化信息,使用位置特异性迭代BLAST计算位置特异性评分矩阵(PSSM)分布图。从大小为20 ×蛋白质序列长度的蛋白质的PSSM图谱中为每个蛋白质序列创建20 × 20组成矩阵(PSSM-400)[44]。为了从PSSM轮廓生成PSSM-400,涉及以下步骤。首先,PSSM值在0-1的范围内被标准化。其次,计算蛋白质序列中每种氨基酸对应的每种氨基酸的出现组合。这意味着每列有20个值,而不是一个。因此,PSSM矩阵将有一个20 × 20维的向量。为了生成这个PSSM-400矩阵,我们使用了Pfeature软件,该软件为每个蛋白质生成一个向量维数为20 × 20的归一化矩阵PSSM-400。
为此,使用了两种不同的方法来鉴定毒素,即在不同E值截止值下BLAST的最高命中和前五个命中的集合。基于查询序列对数据库的第一次命中,序列被指定为毒素和非毒素。此外,采用投票策略来标注查询蛋白质,该蛋白质被称为前五个命中的集合。在这种情况下,对于查询蛋白质序列,应该有至少或多于五次的命中被认为是命中。如果前五个命中具有最大毒素,则将查询序列指定为毒素。使用类似的方法将查询蛋白质序列指定为非毒素。该方法的性能评估的基础上,各种E值截止。这种方法已经在不同的研究中使用并得到了很好的诠释。
2.2.3 Motif
通过使用模体浮现和类别识别(MERCI)工具(一种在任何序列组中定位模体的程序)来搜索毒性蛋白质的模体[39]。基序分析提供了与毒性序列中存在的重复模式相关的信息。该软件使用Perl脚本来定位使用默认参数的文件中的主题。
描述ToxinPred2整体架构的流程图。如下
3. 结果
对与主数据集,还有其他两个数据集。文中
如果用AAC来提取特征,RF都能有良好的表现。
如果用PSSM图谱来提取特征,XGBoost表现良好。
如果用SVC-L1提取特征的方法,RF的模型对于所有三个数据集表现更好。
对于特征的选择主要是根据归一化和重要性来选择的,为了能够更大程度的区分有毒与无毒。
下表是在主数据集上使用AAC开发的基于机器学习的模型的性能:
当与使用AAC开发的基于机器学习的模型结合时,基于motif的方法在主数据集上的性能
当与使用AAC的基于机器学习的模型结合时,基于BLAST的方法在主数据集上的性能
4.结论
如果氨基酸的序列不超过35,为了补充T oxinPred,我们提出了一种预测蛋白质毒性的新方法,T oxinPred2。本研究建立了三个数据集,即从SwissProt筛选出的主数据集、备选数据集和真实数据集。主数据集包含8233个毒性和非毒性蛋白质,备选数据集包含1924个非冗余毒性和非毒性蛋白质。生成真实数据集是为了创建真实条件,其中负数据是正数据的数倍。因此,在真实数据集中使用了1924种毒性蛋白和19 240种无毒蛋白。
使用Pfeature工具计算蛋白质序列的各种特征。分别使用SVC-L1和特征选择器工具进一步选择和排列相关的特征集。我们的组成分析显示,与无毒蛋白质相比,半胱氨酸、甘氨酸、赖氨酸和色氨酸在有毒蛋白质中占主导地位。值得注意的是,基于组合的特性是首选特性。这表明这些特征可以用来区分有毒和无毒蛋白质。此外,我们还实现了BLAST,这是一个广泛用于注释任何查询蛋白质序列的工具。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!