如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列?

NGS基础 – GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子,内含子,启动子,基因体,非编码区,编码区,TSS上游1500,TSS下游500的序列。下面我们就来示范如何提取这些序列。

NGS基础 – 参考基因组和基因注释文件提到了如何下载对应的基因组序列和基因注释文件。

假如我们已经拿到了基因组序列文件和基因注释文件,也可从文后链接获取。

查看下文件内容和格式

基因组序列文件为FASTA格式,查看命令和内容如下(测试文件,只有1条染色体):

基因注释文件为格式,只看前列信息(第三列包含了不同的元件注释)

安装提取工具gffread

这里用到了 (https://github.com/gpertea/gffread),安装方式如下 (若不理解,见这个为生信学习打造的开源Linux教程真香的软件安装部分):

提取转录本序列、CDS和蛋白序列

可以参考所有可用参数,如果有特殊情况需要考虑的,还需配合其它参数使用。

1.获取转录本序列

内容如下:

2.获取CDS序列

内容如下

3.获取蛋白序列

内容如下

解析GTF文件的结构

针对本GTF,对于元件,基因名字 ()在第14列。

针对本GTF,对于元件,基因名字 ()在第18列。

这个查看信息在哪一列是很常用的检查文件结构提取对应信息的方式,简化为一个脚本

检查某个文件的指定行(默认为第一行)

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年5月24日
下一篇 2021年5月24日

相关推荐