简介
基因组分类数据库:GENOME TAXONOMY DATABASE
址:https://gtdb.ecogenomic.org/
GTDB分类法中指定为梭菌或拟杆菌的基因组的NCBI和GTDB分类的比较。
(a)比较GTDB分类法中分配给梭菌门的2368个细菌基因组的NCBI(左)和GTDB(右)目级别分类。原本的一个目重新划分为多个目。括 中表示通过NCBI归类为梭菌纲以外的纲的基因组。(b)比较GTDB分类法中分配给拟杆菌纲的2,058个细菌基因组的NCBI和GTDB纲级别分类。括 中表示通过NCBI分类为除拟杆菌纲以外的门的基因组。
软件和数据库安装
Github: https://github.com/Ecogenomics/GTDBTk
GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为细菌和古细菌基因组分配客观的分类法。它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由基因组组装的基因组(MAG)进行物种分类注释。它也可以用于分离和单细胞的基因组物种注释。
本次测试版本为 GTDB-Tk v1.3.0,于2020年7月17发布,参考数据为95版。
硬件要求:
-
内存100Gb
-
硬盘27Gb
-
64核1小时可分析1000个细菌基因组
Conda安装:
download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-1.3.0/db/:
(可选)手动下载和配置GTDB参考基因组最新版(测试时为95版,34Gb)
此外:GTDB数据库国内下载备份链接见 http://nmdc.cn/datadownload
使用
教程:https://ecogenomics.github.io/GTDBTk/
运行显示帮助,主要有以下功能模块
工作流程:
-
classify_wf:基于GTDB参考树,基因组物种注释,包括鉴定、比对、分类三步
-
de_novo_wf:推荐新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰
主要方法模块:
-
identify:基因组中鉴定标记基因
-
align:多序列对齐
-
classify:确定物种分类
-
infer:从多序列对齐序列建树
-
root:使用外类群定根
-
decorate:使用GTDB分类注释树
工具:
-
infer_ranks: 使用RED估计分类级和内部结果
-
ani_rep: 计算GTDB代表基因组的ANI
-
trim_msa: 多序列对齐结果筛选
-
export_msa : 导出未剪裁的细菌/古菌多序列对齐文件
测试:
-
test:使用3个古菌基因组测试分类流程
-
check_install:检查数据库文件是否存在且位置正确
测试流程test
检查数据库,结果显示OK和Done表示正常
正常显示如下:
测试流程,无 错确定程序的软件和数据库正常
运行成功显示如下内容:
结果目录(gtdbtk_test/output)中主要结果文件:
ar122为古菌相关文件,bac120为细菌相关文件。此示例为3个古菌,细菌文件为空。
-
gtdbtk.ar122.classify.tree 树文件
-
gtdbtk.ar122.summary.tsv 分类结果文件
-
gtdbtk.ar122.markers_summary.tsv 使用标记基因情况
-
gtdbtk.ar122.msa.fasta 多序列对齐文件(输入+参考)
-
gtdbtk.ar122.user_msa.fasta 多序列对齐文件(输入)
分类结果示例
多序列对齐示例
物种注释流程
classify_wf全称为 Classify workflow,即分类工作流程,主要包括了identify鉴定单拷贝标记基因、align多序列对齐和classify物种分类鉴定三步。
https://github.com/YongxinLiu/Note/tree/master/Meta/dRep/bin 中有6个基因组草图的fasta压缩文件。下载测试此流程。
(可选)解压数据,此流程支持gz压缩格式直接作为输放
classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见。
主要结果文件描述:此处全为细菌基因组,因此均为bin.bac120开头的结果
物种注释 bin.bac120.summary.tsv
多序列对齐结果建树infer
结果可用itol(https://itol.embl.de/)在线可视化
人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。
具体的画法可以参照itol 站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。
-
iTOL美化 进阶
进化树构建流程
从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。
输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。
主要结果有:
-
bin.bac120.decorated.tree: 修饰的有根树
-
bin.bac120.decorated.tree-table:
树相关信息表
-
bin.bac120.user_msa.fasta:
多序列对齐文件
附录:GTDB数据库简介
基因组位于 https://data.ace.uq.edu.au/public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下,
建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本 (当前为2020年7月13 更新95版)。
GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G
物种注释文件,古菌3千多种,细菌,19万多种
参考基因组文件,32G
参考文献
-
微生物基因组分类数据库GTDB和软件GTDB-Tk
软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https://doi.org/10.1093/bioinformatics/btz848
120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https://doi.org/10.1038/nbt.4229
种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https://doi.org/10.1038/s41587-020-0501-8
使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!