基于随机森林的植物环状RNA识别软件

基于随机森林的植物环状RNA识别软件

摘要
环状RNA是一种新型的闭合RNA。越来越多的环状RNA在植物中被发现,研究表明环状RNA具有很重要的调控作用。
因此,从RNA序列中识别环状RNA非常重要。但是传统的环状RNA识别存在局限性。
近年来机器学习的提出,给环状RNA识别提供了很多方法。但是植物序列RNA特征与动物序列RNA特征不同,利用这些方法来识别植物RNA是不可行的。
因此迫切需要开发一款基于植物环状RNA的特征识别软件。

过程
首先:从水稻环状RNA和lncRNA数据中提取了不同的特征,包括开放阅读框、k-mers数量和剪接连接序列编码。
第二:使用随机森林模型进行训练,训练集采用十倍交叉验证。
第三:根据 准确率、精度 和 F1得分 来评估我们的分类,模型测试数据的所有得分都在0.99以上。
第四:通过其它植物数据进行验证。得到了良好的结果,准确率达到了0.8以上。
最后,将构建的机器学习模型和使用的编程脚本打包到本地运行的循环RNA预测软件Pcirc https://github.com/Lilab -SNNU/Pcirc
总结
本研究基于水稻circRNA和lncRNA数据,利用随机森林算法构建了植物circRNA识别的机器学习模型,该模型也可以应用于植物circRNA识别。同时,将构建的机器学习模型和本研究使用的编程脚本打包成本地化的circRNA预测软件Pcirc,方便植物circRNA研究人员使用。

背景
环状RNA是一种新发现的非编码RNA。与典型的线性RNA不同,它没有5 ‘端帽结构,也没有3 ‘端poly-A尾巴结构,而是5 ‘端与3 ‘端,端对端连接形成的闭环结构。
CircRNA于20世纪70年代首次在植物类病毒中被发现,但由于其低水平表达,被认为是转录的副产物。
随之技术的进展,在原核生物与真核生物钟发现大量环状RNA,其中一些环状RNA被证实可以编码蛋白。虽然目前对环状RNA研究很多,但大多集中在哺乳动物和人类,对植物环状RNA研究较少。
目前,CIRI、CIRCexplorer2和find_circ是比较流行的circRNA识别软件。这三种软件程序能够从转录组数据中预测环状RNA的重要共同基础之一是覆盖环状RNA反剪接连接(BSJs)的支持读数。但是,每个预测软件支持reads数的经验标准不同,导致预测的circRNAs数量差异很大,不同软件程序得到的重叠circRNAs数量较少。同时,由于不同阶段和不同组织中环状RNA的表达不尽相同,因此将连接读数作为预测环状RNA的重要标准,很容易丢失一些环状RNA。为了克服上述缺点,我们开发了一种基于机器学习方法的动物circRNA识别方法DeepCirCode,并在哺乳动物上取得了良好的效果。
DeepCirCode使用的特征包括GT-AG剪接位点、反向剪接位点上下游的Alu重复序列,以及circRNA剪接位点两端与基因组相反的序列方向。然而,利用这些特征来识别植物环状rna是不可行的,因为植物环状rna序列的特征与动物环状rna不同。
为此,迫切需要基于植物环状rna的特征开发基于机器学习的环状rna识别软件。

在本研究中,我们首先将环状RNA和lncRNAs分别作为正集和负集,根据k-mers、ORFs的主要特征以及覆盖反剪接位点的序列编码信息,构建了机器学习模型。Pcirc的源代码和安装说明可以在https上://githu b.com/Lilab -SNNU/Pcirc找到。

Dataset
circRNA数据下载自PlantCircBasehttp://ibi.zju.edu.cn/plantcircbase。incRNA下载自GreeNC http://green.sciencedesigners.com
为了使数据集更可信,我们首先比较了circRNAs数据与lncRNA数据,筛选的序列与序列相似性高于95%的两个数据集,然后比较了序列在每个数据集和删除那些相似度高于95%,保持最长的一个。
最后,我们使用盒须图方法从两个数据集中删除极端数据值(长度过长或过短)。综上所述,我们分别获得33101个环状rna和4656个lncrna阳性数据和阴性数据。我们随机选择4000从积极和消极的数据序列,然后有8000序列作为训练集,剩下的数据作为一个独立的测试集。circRNAs和lncRNAs拟南芥和玉米也从PlantCircBase下载和GreeNC分别,然后用来测试Pcirc的普遍性。

Random forest
随机森林(Random forest, RF)是由训练数据的独立bootstrap样本和独立于原始特征空间[23]采样的每个特征子集组成的多个未修剪决策树的集合。它可以从训练数据集的原始特征构造多个独立的决策树,然后通过投票的方式对所有树进行融合,得到最优的分类模型。该方法在包括生物信息学在内的数据处理领域得到了广泛的应用。K-nearest neighbors (KNN)是ML领域另一种流行的算法;虽然KNN也能很好地处理分类问题,但算法中的许多参数需要调整。随着KNN中关键参数数量的增加,计算量会迅速扩大,而RF只需要调整少量的模型参数就可以得到一个很好的预测分类模型。

Pcirc软件的实验设置
本研究用的是 sciki-learn模块,该模块包含很多机器学习算法。然后根据以下流程基础来开发了Pcirc软件。

首先我们使用UGENE http://ugene .unipr o.ru/downl oad.html去预测序列中的ORF,然后使用Python脚本从结果文件中提取最佳ORF,并计算它所占序列的长度比例。对于ORF-coverage,我们在提取特征时对值进行了* 10的标准化。

基于随机森林的植物环状RNA识别软件

讨论
环状rna是一类环状非编码rna,大部分长度大于200nt,而lncRNAs是一类长度大于200nt的线性非编码rna。因为circRNA和lncrna的长度分布几乎相同,所以单凭序列长度很难区分。将序列特征与机器学习相结合已被 道为一种有效的分类长链非编码rna[27]的方法。因此,我们从circRNA的生物学特性出发,构建了一个名为Pcirc的软件,利用机器学习方法对植物circRNA进行预测。在构建机器模型的过程中,我们选择了三种特征,其中k-mers和ORFs在lncrna和circrna的识别和预测中得到了广泛的应用。由于反向剪接位点在环状rna的形成中起着重要的作用,反向剪接位点的上下游序列引起了科学家们的关注。现在研究者开始研究通过剪接连接序列编码(SJSC)来研究环状rna的形成,但是我们的方法中SJSC的策略与之前的方法不同。
除了剪接位点相关的特征,我们结合广泛使用的k-mer和ORF特征来构建我们的ML模型,因为它们代表了序列的基础。k-mer是序列多样性的基础。随着k值的增加,在同一序列甚至同一基因组中越来越难以找到具有相同高k值的k-mer片段。同时,在一定范围内,k值越大,k-mer片段越具有代表性;但是较大的K值所需要的额外计算量呈指数级增加,所以我们需要更好地平衡特征优化和计算成本这两个问题。经过多次尝试,我们选择kmax = 4作为k-mers的代表值。四种核苷酸的顺序包含着重要的生物信息,ORF是一种具有代表性的信息类型。在我们的研究中,虽然这类特征是由二维向量组成的,但是ORFs经过处理后也包含了丰富的信息。从三种主要算法测试和单特征类型测试的结果可以看出,这种特征具有很好的分类能力(表1,2)。最初,由于lncrna与mrna在于编码能力差异较大,这种特征被广泛应用于识别lncRNAs。目前,circrna大多被认为是ncrna; 然而,由于一些环状rna已经被证明具有编码能力,我们使用这一特性进行测试,结果远远超出了我们的预期。可能是由于选择性剪接的问题,环状rna中包含的外显子比lncrna中包含的外显子更多,从而有可能获得更多的ORFs。也有可能是没有明确起始和终止位点的环状结构比具有明确起始和终止位点的线性序列具有更强的可翻译性,因此ORF特征在区分环状rna和lncRNAs方面具有很强的分类能力。在本研究中,在算法选择过程和特征组合测试中,ORF特征获得了最好的分数(表1、2)。在未来的研究中,我们将对预测的环状rna进行进一步的特征测试、编码分析和实验验证。

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34241 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月17日
下一篇 2021年1月17日

相关推荐