图1. 软件的主要功能界面。A,B,C,D分别为MAVEN, MZmine, MetaboAnalyst, XCMS Online。
主要功能对比
原始数据格式:MAVEN软件要求原始数据以mzXML、mzData格式录入。MZmine数据导入支持csv、mzTab、XML等格式,同时输出格式有XML、SQL和 MetaboAnalyst。XCMS Online软件可支持多种原始数据格式,包括netCDF、mzXML、mzData和Agilent.d文件,但数据加载的时间会因文件大小而不同,有时甚至长达数小时。而MetaboAnalyst数据输入不同于前三类软件,它要求的格式为csv、txt或zip包,数据类型为化合物浓度、NMR/MS 的箱式结构或峰强度列表或LC/GC-MS图谱,因而输入的数据通常要求已完成去噪平滑和基线校正等谱图预处理。
数据预处理:数据预处理主要包括峰识别、峰对齐、样本标准化、零值填充和奇异样本剔除。MetaboAnalyst和XCMS Online软件主要是基于XCMS R包实现峰识别、峰对齐和峰匹配等数据预处理功能。MetaboAnalyst峰识别采用高斯模型算法,峰对齐提供四种分析方法,即COW、DTW、基于化学迁移的峰对齐和根据质量公差及保留时间公差的峰对齐,且这些方法能够检验数据的完整性。XCMS Online除进行单一的峰识别峰对齐外,还将保留时间校正前后的结果以总特征离子色谱图和RT校正曲线图的形式展示出来,并从RT校正曲线中识别出极端值,并将其删除。MAVEN软件利用机器学习算法对峰质量进行评估,通过设定m/z范围提取对应的色谱图,以此识别峰,然后进行峰分组并得出峰质量分数。MZmine软件的峰列表处理分为六大模块:零值填充、同位素检测、滤过、对齐、标准化和峰鉴定。其中峰列表对齐运用RANSAC算法。
统计分析:MetaboAnalyst是所有综合性分析工具中统计功能和方法最全面的软件,包括常规的统计方法和高级机器学习算法,单因素分析包含t检验、火山图、单因素方差分析和相关分析;多因素分析有PCA、PLS-DA和OPLS-DA;高维特征值的提取方法有显著性分析(Significance Analysis of Microarrays, SAM)和微阵列的经验贝叶斯分析(Empirical Bayesian Analysis of Micoarrays, EBAM)算法;聚类分析有系统树图、热图、K均值和自组织神经 络分析;有监督分析方法包括RF和SVM算法。同时还提供了时间序列分析,用来检测代谢物浓度或代谢物判别模型随时间的变化趋势。MZmine中的统计分析相对其数据预处理并不是开发的重点内容,仅提供基本统计方法,但同时支持使用第三方统计软件提供的高级算法,包括交叉验证图、聚类分析、曲线距离分析、Log ratio图、热图、PCA以及Sammon’s投影法等。MAVEN软件包中的数据分析主要是针对两样本间的比较,利用t检验来估计两样本间的差异。XCMS Online提供的基本统计方法有配对t检验和多组比较的方差分析,另外提供了其特有的多样本间两两比较的meta分析方法。其中单因素分析的统计结果以云图输出,多因素则以PCA得分图输出。
其他高级功能:MetaboAnalyst软件是唯一提供功能分析(包括富集分析、通路分析和整合通路分析)和高级分析(包括生物标志物分析、样本量估计和效能分析)的软件。功能分析中的代谢物富集分析目前只针对哺乳动物,代谢通路分析模块又分为代谢通路富集分析和路径拓扑结构分析。高级分析中,生物标志物分析是基于PLS-DA、SVM及RF的基础上使用ROC曲线进行分析的;效能分析和样本量的估计则基于 Bioconductor软件包SSPA。该方法是利用实验数据中检测的全部统计量来估计效应大小的分布、效能和最小样本量。
参考文献:
梁丹丹, 李忆涛, 郑晓皎,等. 代谢组学全功能软件研究进展[J]. 上海交通大学学 :医学版, 2018, 38(7).
更多内容请阅读原文献
文章知识点与官方知识档案匹配,可进一步学习相关知识CS入门技能树Linux入门初识Linux25331 人正在系统学习中 相关资源:涛哥屏幕录像和录像视频播放软件1.0中文绿色免费版-其它代码类…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!