一、使用数据
- 构建物种树使用的是 4 个兰科物种的全部蛋白质序列信息。
- 构建基因树使用的是 4 个兰科物种蛋白组中 NB-ARC 结构域序列信息(结构域长度 ∈ [ 75% mean-length,125% mean-length ])。
二、分析流程
1. 使用 OrthoFinder 推断有根物种树
- 有关 OrthoFinder 的介绍详见 OrthoFinder 2.0 原理及所涉及的相关概念
使用 orthofinder 根据 4 个兰科物种的蛋白序列,构建物种树。
OrthoFinder 将文件夹 protein_fasta 内所有以 .fa、.faa、.fasta、.fas、.pep 结尾的文件作为输入,读取文件内的蛋白序列。有根物种树结果如下图(图 1)所示(通过 megax 查看)
与参考文献中物种树结构一致(图 2),说明了 OrthoFinder 结果的准确性 。由于 OrthoFinder 无需外群即可生根,为了判断无外群生根的准确性,本实验以 Amborellla trichopoda 作为外群进行建树,命令如下:
- -b <dir1> -f <dir2> 中 <dir1> 是指原先分析输出中的 WorkingDirectory 文件夹路径,<dir2> 是指新添物种的蛋白序列文件夹路径。命令表示在原先分析 <dir1> 的基础上添加 <dir2> 中物种的蛋白序列进行分析。这种做法相比从头分析省去了原先蛋白序列间比对的时间,OrthoFinder 将只进行新添序列间及新添序列与原序列间的比对。物种树结果如下:
3. 使用 Notung 根据有根物种树为无根基因树生根且推断基因复制、转移、丢失事件
Notung 输入:有根物种树、无根基因树
- 物种树必须包含基因树中所有基因的物种,额外的物种将被 Notung 忽略。
- 输入的基因树中的每个基因需要包含物种信息(格式:gene_species)。Notung 以 “_” 作为分隔符,基因名中最后一个 “_” 后内容作为物种名。如 Notung 认为 XP_020599319.1_Phalaenopsis_equestris 的基因名为 XP_020599319.1_Phalaenopsis,物种名为 equestris。所以如果物种名中包含 “_” 需替换为 “-” 或其他字符。
在 Notung 中导入基因树、物种树后,通过 Rooting Mode 将无根基因树转化为有根基因树。Rooting Mode 根据有根物种树为每个边计算 DTL 分数(DTL 分数越小的越适合做根),Notung 会高亮(红色)最小值及附近 [(max-min) × 5% ] 的边。用户通过鼠标点击确定选择那个边作为根。将生根后的基因树以 NEWICK 格式导出。
- Notung 的 Reconciliation Mode 功能的输入是 有根基因树,通过比较基因树和物种树推断基因复制、转移、丢失事件。
将有根物种树、无根基因树导入后发现 Notung 会计算出许多适合的生根位点(下图红线)。在没有外群的情况下,难以确定适合的生根位点。
4. 利用 iTOL 在线工具绘制基因树图
iTOL:https://itol.embl.de/upload.cgi
将 Notung 生成的有根基因树文件作为输入,提交至 iTOL。图中
- 土黄:Amborella trichopoda(外群)
- 红色:Dendrobium catenatum
- 紫色:Phalaenopsis equestris
- 青色:Apostasia shenzhenica
- 绿色:Gastrodia_elata
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!