比较基因组学常用分析软件和分析方法
(1)同源基因的查找
OrthoMCL or Orthofinder;
(2)多序列比对
Muscle / MAFFT / ClustalW / T-coffee, Muscle 效果好点
(3)调取保守区域,并收尾连接,形成supergene
Gblocks
(4)进化树构建
RaxML MEGA 等, 很多文献用RaxML,PhyML或Mrbayes,因为ML树和贝叶斯进化树对核苷酸 / 氨基酸替代模型的选择非常敏感,故在进行进化树或分化时间构建之前,需对核苷酸 / 氨基酸替代模型进行选择。(jModelTest 对cDNA进行替代模型选择,ProtTest 对蛋白进行替代模型选择)
构建树的教程:https://www.yuque.com/wusheng/gw7a9p/mcc73y
(5)分化时间分析 divergence time
mcmctree. PAML中的一个程序, BEAST2
(6)基因扩张收缩分析
CAFE
(7)基因是否收到正选择
codeML PAML中一个程序
https://zhuanlan.zhihu.com/p/39992256
一、为什么需要选择核苷酸替换模型
构建进化树可以通过同源 DNA序列或蛋白质分子的氨基酸序列来实现,其具体的步骤基本上是先选取生物数据(同源 DNA 序列或蛋白质分子的氨基酸序列数据)与进化距离模型,然后对不同物种DNA 或蛋白质的序列进行比对,再应用距离模型和比对结果计算进化距离,最后通过进化距离构建进化树。
二、核苷酸替换模型的选择
选择模型涉及两个主要问题,一是采用什么标准判断模型与数据拟合好坏的问题,二是采用什么方法计算选择模型的目标函数。对于第一个问题,目前提出的方法有似然率检验、AIC信息标准(information criteria)、贝叶斯因子(BIC标准)和决策论法等。对于第二个问题,目前主要采用最大似然法和贝叶斯法两种方法计算模型在给定数据集和系统树上的似然值。
有了核苷酸替代模型,我们就可以计算进化距离。在同一替代模型中,对核苷酸替代速率做不同假设就会得到不同的进化距离(不同的进化距离构建得到不同的进化树),常用的进化距离包括: p距离、替代率为常数的d 距离、替代数服从 [公式] 分布的 [公式] 距离 [公式] 。最后就可以通过进化距离构建系统树。目前比较常用的替代模型包括:JC69模型、K80模型、F81模型、TN93模型。由于核苷酸替换模型的选择直接影响进化距离的计算,进而对所构建的系统树是否合理起决定作用。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!