全基因组关联分析GWAS专题2——连锁不平衡

连锁不平衡(linkage disequilibrium, LD)分析是群体遗传学研究中常见的分析内容,也是关联分析的基础,在很多的GWAS文章中都会出现LD衰减图及单倍型block图,接下来一起连锁不平衡(linkage disequilibrium, LD)初探。

D=Pr(A,B)-Pr(A)×Pr(B)

=PAB-PAPB

=PAB-(1-Pa)(1-Pb)

=PAB-(1-Pa-Pb+PaPb)

=PAB-(PA-Pb+PaPb)

=PAB-[PAB+PAb-(PAb+Pab)+PaPb)]

=PAB-(PAB-Pab+PaPb)

=Pab-PaPb

2.2 标准化指标:D’和r2

由于D值严格依赖于等位基因频率(allele frequency),故不适合应用于表述实际的LD强度,最常用度量LD的是D’和r2,两者都基于D。D’反应群体的重组历史,适用于研究群体连锁不平衡程度,r2反应等位基因相关程度,适用于GWAS。LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D’来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD变化,下面尝试计算一下LD吧~

图3 LD下降到最大值一半对应的物理距离

4、LD分析的软件与画图命令

目前比较常用的计算 LD 的软件为 PLINK ,但不支持直接读取 VCF 格式的文件,使用 PLINK 计算 LD 之前需要先将 VCF 格式的文件转换为 PED 格式或 bed + bim + fam 的格式。这样的格式转换会造成额外的存储负担。而另一款软件PopLDdecay 一个主要的优点在于可以读取 VCF 格式的文件,直接生成 LD 统计数据并画出 LD 的衰减图。以软件PopLDdecay计算绘制LD图的命令如下:

#PopLDdecay -InVCF Final_snps.vcf -OutStat Out.LDdecay -SubPop pop.list

全基因组关联分析GWAS专题2——连锁不平衡

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月26日
下一篇 2021年9月26日

相关推荐