【软件介绍】GWAS meta分析软件:METAL

【软件介绍】GWAS meta分析软件:METAL

    • 基本应用介绍:
      • 1. 输入文件的分隔符:
      • 2. 软件支持以下两种meta分析的算法:
      • 3. meta分析
      • 4. 其他额外的分析选项
      • 5. 其他配置文件示例

Meta-analysis是对多个GWAS分析结果进行综合评价。METAL是GWAS meta分析最常用的工具之一,说明文档见:METAL_Documentation

该软件的安装非常简单,直接下载编译好的二进制文件即可,安装过程如下:

在安装目录,有一个名为的可执行文件,该程序用法很简单,只需要编写一个配置文件,然后执行即可,所以关键在于配置文件的编写。在软件的安装目录,有一个名为的文件夹,提供了两个示例,其中的就是配置文件。

基本应用介绍:

1. 输入文件的分隔符:

2. 软件支持以下两种meta分析的算法:

1) pvalue
2) standard error

第一种是基于p值;第二种是基于标准误,我们知道标准误指的是某个统计量的分布,在使用第二种算法时,需要提供对应的统计量,即Effect, 以逻辑回归/线性回归为例,Effect对应的就是回归系数BETA, 标准误对应的就是回归系数的SE。

每种算法要求的gwas分析结果的格式稍有不同,其中以下3列是必须有的:
1) SNP对应的id或者rs
2) test allele
3) other allele

在关联分析的结果中,会有OR值来表征关联强弱,而OR值是一个比值,分子除以分母,分子对应的allele为test allele, 分母对应的allele为other allele。

2.1 基于pvalue的算法,额外要求以下3列
1) Pvalue
2) 效应方向:表示test allele和疾病关联方向的列,有正相关和负相关两种,以OR值为例,大于1为危险因素,小于1为保护因素,为了能够区分正负,OR值需要取log
3) 可选的列:表示样本的大小,根据每个数据集的样本大小来进行加权

2.2 基于标准误的算法,额外要求以下2列
1) effect
2) standard error

前文已经给过解释,effect对应回归分析中的回归系数beta值,standard error对应回归系数的SE。

在配置文件中,需要指定每个study的GWAS结果中上述列对应的标题,以及文件分隔符等选项,这样才能保证软件正确的识别所需的信息,一个配置文件 (文件名:metal.config.txt ) 的示例如下:

注:可以对inputfile的所有maker使用相同的权重 (在这种情况下,可以使用DEFAULTWEIGHT命令设置固定的权重)。WEIGHTLABEL命令优先于DEFAULTWEIGHT命令,因此使用中的WEIGHT列标签不能与inputfile中的任何列匹配。(WEIGHTLABEL可简写为WEIGHT)

3. meta分析

配置好之后,只需执行以下命令即可进行分析:

meta分析后会生成两个文件,分别是 METAANALYSIS1.TBL 和 METAANALYSIS1.TBL.info

以METAL软件自带的测试数据进行说明:

4. 其他额外的分析选项

4.1 选择分析方案

注:虽然基于标准误差的权重在生物统计学文献中更常见,但需确保效应大小估计(beta系数)和标准误差在所有研究中使用相同的单位 (即确保在每个研究中使用了完全相同的性状,并应用了相同的转换)。不同研究中测量单位的使用不一致是这两种分析策略之间差异的最常见原因。

4.2 Genomic Control (GC) 校正

METAL可以对所有输入文件应用GC校正。通过将中位数检验统计量与随机期望的统计量进行比较来估计检验统计量的膨胀,然后将GC校正应用于p值 (SAMPLESIZE加权meta分析) 或标准误差 (STDERR加权meta分析)。这应仅适用于具有整个基因组数据的文件(即不应用于结果仅可用于候选位点或为GWAS结果的后续选择的少量SNP的设置)。

4.3 样本重叠校正

样本量加权元分析中的样本重叠校正(由Sebanti Sengupta开发,Daniel Taliun执行)。首先,METAL根据每个研究的z统计数据估计了两个或两个以上研究中常见的个体数量。然后,在计算总体z统计量时,METAL通过用估计的共有个体数量校正权重来调整样本重叠。为了校正样本大小加权meta分析中的样本重叠,可使用OVERLAP ON命令(仅对SCHEME SAMPLESIZE有效)。默认情况下,METAL使用Z-statistics

4.4 Strand信息

输入文件可以包含一个列,该列指示等位基因在哪个链上编码(给定为+/-)。如果出现此列,应该使用USESTRAND ON命令,并使用STRANDLABEL命令指定适当的列名。如果USESTRAND是关闭的,则假定该链对所有snp都是“+”的,尽管明显的链问题被METAL识别并适当处理(例如,当一项研究提供了A/G等位基因,而另一项研究提供了C/T等位基因)。

4.5 过滤

自定义过滤器可以用来选择包含在meta分析中的snp。例如,这可以用于在特定的最小等位基因频率范围内选择snp进行分析。

如:

这两个过滤条件表示:只考虑N列中的值大于1000且MAF列中的值大于0.01的条目。

可以使用、=、=、!=和IN操作符定义过滤器。例如,要将分析限制为三个有趣的SNPs,可以使用(注意SNPs列表中没有空格):

要删除之前定义的所有过滤器,使用命令:

4.6 详细模式

METAL允许完整输出所有输入文件中所有snp的单个汇总统计信息。这可能会创建一个非常大的文件,应该谨慎使用。通常,在使用此选项之前,应该创建自定义过滤器来将分析限制为感兴趣的snp。这个选项可以在许多研究中比较效应的方向,因为METAL考虑了所有的链翻转,并提供了相对于同一等位基因的效果方向。这也是一种双重检查METAL是否正确使用了预期数据的方法。

4.7 宽松模式

默认情况下,METAL将跳过每个输入文件中没有预期列数的行。这通常是一个好主意,因为它可以避免在缺少列时产生不正确的结果。有时(例如,当每行末尾有可选的额外列时),COLUMNCOUNTING LENIENT选项可能会很有用。

4.8 追踪等位基因频率

METAL可以选择性地跟踪所有文件的效应等位基因频率,并 告平均、最小和最大效应等位基因频率。在METAL完成所有的链比对后,这些可以非常有用地检查不同队列的等位基因频率是否相似。不同研究中等位基因频率的巨大差异可能表明不同研究中参考等位基因的命名不一致。当这个特性被打开时,METAL要求所有的输入文件都有一个等位基因频率列。要使用FREQLABEL命令,指定等位基因频率信息的列名。

4.9 输入文件推荐

强烈建议对输入文件的所有SNP都提供两个等位基因的标签,即效应等位和非效应等位。只要每个输入文件的等位基因列都给出了,METAL就会适当地考虑不同输入文件使用不同参考等位基因的情况。等位基因可以用数字编码(A=1,C=2,G=3,T=4)或字母编码(A,C,G,T, a,c,g,t),如果没有A/T或C/G SNP (互补配对的等位,ambiguous alleles),等位基因可以在任何一条链上。如果没有A/T或C/G SNP,等位基因可以在任何一条链上。对于A/T或C/G SNPs, METAL要求SNPs在不同输入文件中的一致链上,以便结果可解释。对于其他snp, METAL可以自动识别和解决链不一致。

P值:如果出现1或非数值的情况,会被认为是缺失值,并给出警告。

EFFECT列可以有正值和负值(例如,来自回归的beta值),或者只是相对于参考等位基因的效应方向,列为“+”和“-”。例如,参考等位基因A(或效应等位基因A)的“+”效应(或任何正数)代表了等位基因A的拷贝数量的增加与性状值的增加相关的情况。对于离散性状, 告比值比通常都是正的。在这种情况下,为了计算效应的方向,应该查看比值比的对数。如果指定了EFFECT log(ODDS_RATIO_COLUMN), METAL可以计算比值比。

要执行基于OR的meta分析,请在脚本的开头选择SCHEME STDERR。然后,对于每个文件,提供优势比的自然对数作为EFFECT列或另一个适当的统计数据(例如逻辑回归分析中相应的回归系数)。

5. 其他配置文件示例

参考:

https://cloud.tencent.com/developer/article/1554734
https://www.cnblogs.com/chenwenyan/p/10912521.html
https://genome.sph.umich.edu/wiki/METAL_Documentation
https://genome.sph.umich.edu/wiki/METAL_Quick_Start

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年5月12日
下一篇 2021年5月12日

相关推荐