上周,在介绍了《基因组注释1识别重复序列和假基因》的方法,今天为各位讲解基因组中非编码RNA和编码基因的预测。
图1. 非编码RNA研究进展[1]
非编码RNA种类繁多,且结构特征各不相同,不像编码基因一样具有典型的结构特征,所以目前现有的非编码预测软件一般只是专门针对某一种类的非编码RNA,比如tRNAScan-SE预测tRNA、rnammer预测rRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA盒的snoRNAs、mirScan 搜索microRNA等。
Sanger实验室开发了Infernal软件,建立了1600多个RNA家族,并对每个家族建立了一致性二级结构和协方差模型,形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型,结合Infernal软件可以预测出已有RNA家族的新成员,只是特异性比较差。因此,在有专门的软件预测某一类非编码RNA时,优先采用该软件进行预测,如果没有相应的软件,则可以采用Infernal/Rfam方法进行预测。
这里简单介绍tRNAScan-SE和rRNAmmer的使用。
tRNAScan-SE
tRNAScan-SE 下载地址:http://trna.ucsc.edu/tRNAscan-SE/,同时提供web服务。
软件用法如下:
# 示例
tRNAscan‐SE ‐o tRNA.out ‐f rRNA.ss ‐m tRNA.stats genome.fasta
# 参数说明
‐A 适合于古细菌。该参数选择了古细菌特异性的协方差模型,同时稍微放宽了 EufindtRNA 的 cutoffs。
‐B 适合于细菌。默认情况下,不选择 ‐A ‐B ‐G 或 ‐O 参数,则适合于真核生物。
‐G 适合于古细菌,细菌和真核生物的混合序列。该参数使用 general tRNA 协方差模型。
‐O 适合于线粒体和叶绿体。选择该参数,则仅使用 Cove 进行分析,搜索速度会很慢,同时也不能给出 pseudogenes检测。
‐i 使用 Infernal cm analysis only。该参数设置后,需要 cmsearch 命令,但是 tRNAscan‐SE 软件包中貌似没有该程序,最终无法运行。
‐C 仅使用 Cove 进行 tRNA 分析。虽然从一定程度上提高了准确性,但是会极慢,当然不建议了。
‐o <file> 将结果保存到文件。
‐f <file> 将 tRNA 的二级结构结果保存到文件
‐m <file> 将统计结果保存到文件。
# 输出结果说明:
结果示例:
编码基因的预测
原核生物基因结构非常简单,其典型结构如下图所示。一个完整的原核生物基因结构是从基因的5’端启动子区域开始,到3’端终止区域结束。基因的转录起始位置由转录位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括5’端非翻译区(5’UTR)、开放阅读框(ORF)或者编码区(CDS)及3’端非翻译区(3’UTR)。基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象为介于这两者之间的ORF(或CDS)。
图3. 真核生物基因结构图
从以上原核基因结构图和真核生物基因结构图可知,CDS(或ORF)是指从5’端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。准确地注释基因组的蛋白质编码基因是整个基因组分析中的核心问题之一,目前,最常用的蛋白质编码基因注释策略是de novo 预测和同源比对预测两种策略。
De novo 预测指的是通过分析基因组内编码区和非编码区的特征性结构及其差别(包括外显子长度分布、启动子、poly-A信 、不同区域的GC组分在基因中的密度和出现频率等),从基因组内找出可能的编码区(包括ORF和5’-NTRs以及其它重要信 )。基于该方法用于原核生物基因预测的应用软件常见有Glimmer、Genemark,用于真核生物基因预测的常见有Fgenesh、Genscan、Augustus、 SNAP和BGF。其实真核生物基因的复杂性,导致预测结果准确率非常低,目前主流方法为多样本、发育阶段的胁迫条件下的转录组测序,来完得较完整的转录本,比对至参考基因组以获得准确的基因注释。
表1. 基于从头预测的常见基因预测软件准确性的比较
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!