连锁不平衡(linkage disequilibrium, LD)分析是群体遗传学研究中常见的分析内容,也是关联分析的基础,在很多的GWAS文章中都会出现LD衰减图及单倍型block图,接下来一起连锁不平衡(linkage disequilibrium, LD)初探。
D=Pr(A,B)-Pr(A)×Pr(B)
=PAB-PAPB
=PAB-(1-Pa)(1-Pb)
=PAB-(1-Pa-Pb+PaPb)
=PAB-(PA-Pb+PaPb)
=PAB-[PAB+PAb-(PAb+Pab)+PaPb)]
=PAB-(PAB-Pab+PaPb)
=Pab-PaPb
2.2 标准化指标:D’和r2
由于D值严格依赖于等位基因频率(allele frequency),故不适合应用于表述实际的LD强度,最常用度量LD的是D’和r2,两者都基于D。D’反应群体的重组历史,适用于研究群体连锁不平衡程度,r2反应等位基因相关程度,适用于GWAS。LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D’来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD变化,下面尝试计算一下LD吧~
图3 LD下降到最大值一半对应的物理距离
4、LD分析的软件与画图命令
目前比较常用的计算 LD 的软件为 PLINK ,但不支持直接读取 VCF 格式的文件,使用 PLINK 计算 LD 之前需要先将 VCF 格式的文件转换为 PED 格式或 bed + bim + fam 的格式。这样的格式转换会造成额外的存储负担。而另一款软件PopLDdecay 一个主要的优点在于可以读取 VCF 格式的文件,直接生成 LD 统计数据并画出 LD 的衰减图。以软件PopLDdecay计算绘制LD图的命令如下:
#PopLDdecay -InVCF Final_snps.vcf -OutStat Out.LDdecay -SubPop pop.list

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!