ChromImpute是一款用于大规模系统表观基因组分析的软件。在大规模的系统表观组学分析中,缺失值的存在是不可避免的,为了尽可能的减小缺失值对结果的影响,这个时候我们就需要一款这样的软件,可以基于大量的数据集进行训练,从而对缺失值进行科学的插补,达到即使存在缺失值也不对最终的结果形成影响的效果。
上图是经ChromImpute处理的数据,可以看到,蓝色部分是真实的观察值,红色部分是插值后的结果,经ChromImpute处理后数据的完整性得到了很好的提高,为得到更好的结果提供了保障。
01安装教程
以下是ChromImpute的安装方法:
1. 安装 Java 1.6 或更高的版本
2. 解压缩ChromImpute.zip
3. 解压缩EXAMPLE.zip文件并放到ChromImpute文件夹中
4. 使用cmd命令进入到ChromImpute中
5. 运行以下命令:
java -mx4000M -jar ChromImpute.jar Apply EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/PREDICTORDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/OUTPUTDATA E034 H3K9ac
计算共需耗时20分钟,在EXAMPLE / OUTPUTDATA文件夹中可以找到名为chr
21_impute_E034_H3K9ac.wig.gz的结果文件。
02操作使用
下面我们再详细介绍一遍在日常的研究中如何使用ChromImpute进行插值:
1.如果输入信 没有达到所需的分辨率(如25bp),则使用Convert命令将数据转换为所需的分辨率。运行代码如下:
java -mx4000M -jar ChromImpute.jar Convert EXAMPLE/INPUTDATADIR EXAMPLE/tier1_samplemarktable.txtEXAMPLE/hg19sizes_chr21.txt EXAMPLE/CONVERTEDDATADIR
2.数据集之间的全局距离应使用ComputeGlobalDist命令计算。运行代码如下:
java -mx4000M -jar ChromImpute.jar ComputeGlobalDist EXAMPLE/CONVERTEDDATADIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/DISTANCEDIR
3. 使用GenerateTrainData命令可以用于生成训练集。运行代码如下:
java -mx4000M -jar ChromImpute.jar GenerateTrainData EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/TRAINDATA H3K9ac
4.使用Train命令为感兴趣的特定样本类型中的特定标记生成训练后的预测因子。运行代码如下:
java -mx4000M -jar ChromImpute.jar Train EXAMPLE/TRAINDATA EXAMPLE/tier1_samplemarktable.txt EXAMPLE/PREDICTORDIR E034 H3K9ac
5.使用Apply命令为所需样本中的所需标记生成估算信 轨迹。运行代码如下:
java -mx4000M -jar ChromImpute.jar Apply EXAMPLE/CONVERTEDDATADIR EXAMPLE/DISTANCEDIR EXAMPLE/PREDICTORDIR EXAMPLE/tier1_samplemarktable.txt EXAMPLE/hg19sizes_chr21.txt EXAMPLE/OUTPUTDATA E034 H3K9ac
参考文献:Ernst J, Kellis M. Large-scale imputation of epigenomic datasets for systematic annotation of diverse human tissues. Nature Biotechnology, 33:364-376, 2015.
科研日精进已为大家下载好ChromImpute软件、教程及测试数据
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!