GAPIT 3.0:全基因组关联分析与预测软件最新版发布

近日,GPB在线发表了西南民族大学青藏高原动物遗传资源保护与利用(四川省、教育部)重点实验室题为“GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction”的软件文章,我们的“要文译荐”栏目很高兴邀请到西南民族大学王嘉博博士和美国华盛顿州立大学张志武教授共同为大家系统介绍该全基因组关联分析与预测软件的具体情况。


要点介绍

研究问题:

全基因组关联分析与预测软件(GAPIT version 3)的构建。

研究背景:

GAPIT是一款基于R语言平台编译,整合了多种全基因组关联分析和全基因组选择新算法,集输出相关图形、表格于一身的免费软件。全基因组关联分析包括一般线性模型(General Linear Model, GLM);混合线性模型(Mixed Linear Model, MLM);压缩式混合线性模型(Compressed Mixed Linear Model, CMLM);改进版压缩式混合线性模型(Enrichment CMLM, ECMLM);快速式混合线性模型(Fast-LMM);快速选择式混合线性模型(Fast-LMM-Select);逐步排它性混合线性模型(Settlement of MLMs Under Progressively Exclusive Relationship, SUPER);多位点混合线性模型(Multiple Loci Mixed Model, MLMM);固定随机模型循环概率模型(Fixed and random model Circulating Probability Unification, FarmCPU);和贝叶斯信息与连锁不平衡迭代嵌套式模型(Bayesian-information and Linkage-disequilibrium Iteratively Nested Keyway, BLINK)。全基因组选择包括基因组最佳线性无偏估计(genomic Best Linear Unbiased Prediction, gBLUP);压缩式最佳线性无偏估计(Compressed BLUP, CBLUP);和SUPER 最佳线性无偏估计(SUPER BLUP, SBLUP)。截止目前GAPIT已经发展到第三个版本,前两个版本累计引用超过1400余次,从2016年至今,GAPIT 站累计获得34,000次以上的 页访问,使GAPIT成为目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的重要分析工具。

主要成果1:

整合目前最新的全基因组关联分析算法(MLMM, FarmCPU和BLINK)以及全基因组选择预测算法(CBLUP, SBLUP)。

主要成果2:

经过逻辑重排,代码优化,使多种算法独立存在于GAPIT3中,用户无须分别下载、安装和维护。

主要成果3:

创建交互式输出,包括交互式曼哈顿图,交互式分位数-分位数(Quantile-Quantile, QQ)图以及交互式全基因组选择预测结果。

软件主页及Github连接:

http://zzlab.net/GAPIT

https://github.com/jiabowang/GAPIT3

背景和研究对象

基因组学研究一直是研究生物基因与性状潜在关系的重要热点,全基因组关联分析(Genome Wide Association Study, GWAS)和全基因组选择预测(Genomic Selection/Genomic Prediction, GS/GP)是基因组学研究中两项重要的研究内容。 GWAS的重点是寻找与特定性状相关的有效遗传位点(通常是单核苷酸多态性,Single Nucleotide Polymorphisms,SNPs),而GP在动植物育种领域被用来估计基因组育种值并预测表型值,以此来进行育种规划和选择。而计算机软件方法在GWAS和GP研究中关系着研究结果的统计学效力、计算效率以及最终推广应用的可行性。

软件简介

GAPIT目前发展到第三个版本,现已经整合最新的全基因组关联分析算法(GLM, MLM, CMLM, ECMLM, SUPER, FarmCPU和BLINK)以及全基因组选择预测算法(GBLUP, CBLUP, SBLUP),前两个版本累计被他引超过1400余次,从2016年至今,GAPIT 站累计获得34,000次以上的 页访问。GAPIT是目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的主要分析工具。

软件主要结构

为了适应多种方法的不断融入和比较,我们将GAPIT原有逻辑结构进行了重排,以方便集成外部软件包,即使有些没有整合在GAPIT3中的算法也可以使用GAPIT3的输出模式进行方法之间的比较。GAPIT分为五个模块:(1)数据与参数(DP); (2)质量控制(QC);(3)中间元件(IC);(4)充分统计量(SS);(5)解释和诊断(ID)。这些模块中的任何一个都是可选的,可以跳过。但是,GAPIT3不允许以相反的顺序执行模块(1)。

2  GAPIT三个版本中统计方法的比较

集成算法与独立算法比较

目前GAPIT整合的第三方软件和算法包括:MLMM, FarmCPU, BLINK-R和BLINK-C。我们比较了这三款软件独立运行和在GAPIT3中估计遗传标记P值的结果,同时还比较了使用MLM在rrBLUP, EMMAREML, BGLR以及GCTA和在GAPIT中预测的结果(3)。结果显示GWAS结果中,GAPIT中运行的四款软件与其独立运行的计算结果完全一致;GP结果中仅有BGLR中MLM与GAPIT中的存在一定偏差,其他三款软件与GAPIT中的预测结果完全一致。BGLR中的MLM是采用马尔科夫链(Markov Chain Monte Carlo, MCMC)进行估计遗传方差与环境方差的比值(λ),而在rrBLUP, EMMAREML, GCTA以及GAPIT中均采用谱分解法估计λ,因此造成了预测上的轻微波动。

图4  交互式输出结果截图

图6  多方法计算时间比较

GAPIT数据统计

GAPIT的使用量、 页论坛的访问量以及引用次数在过去几年始终稳定增加。截止2021年8月6日,前两个版本累计被引超过1400余次,从2016年至今,GAPIT 站累计获得34,000次以上的 页访问。自2012年GAPIT第一版本发表后,GAPIT谷歌论坛累计活跃800多个关于使用、功能、BUG以及修正建议等相关主题,累计回帖数量达到2900多次,总计访问量达到了74,000次以上。

扫描二维码直接访问原文

相关阅读

组学原始数据管理体系(GSA Family)

Genome Warehouse:基因组数据公共资源库

双11后拒绝“吃土”!新品数据“大锅菜”来袭,0元抢够~

数据“大锅菜”plus 版~吃饱开工!

舌尖上的数据百家饭”Plus版来啦

2018年度“中国生物信息学十大进展”公布

2019年度“中国生物信息学十大进展”公布

2020年度“中国生物信息学十大进展”公布


学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览33872 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年11月1日
下一篇 2021年11月2日

相关推荐