Nature综述:鸟枪法宏基因组-从取样到数据分析——2万字带你系统入门宏基因组实验和分析

文章目录

  • NBT:鸟枪法宏基因组-从取样到数据分析
    • 热心肠日
    • 摘要
    • 正文
      • 图1. 宏基因组分析流程概述
      • 附图1. 用于规划宏基因组学研究的示例工作流程
      • 附框1. 实验设计中的问题和解决方案
      • 鸟枪法宏基因组学研究方案设计
      • 样本采集和DNA提取
      • 表1. 在测序之前富集微生物细胞和DNA方法的优点和局限性
      • 文库制备和测序
      • 宏基因组拼接
      • 表2. 基于已知成份的模拟群落评估宏基因组拼接
      • 表3. 不同环境宏基因组拼接的比较
      • 重叠群分箱
      • 图2. 无参和有参宏基因组物种表征
      • 有参宏基因组定量
      • 宏基因组中的基因和代谢通路
      • 框1. 宏基因组的局限性的机遇
      • 下游分析
      • 展望
      • 表4. 宏基因组无参(组装)和有参(读长比对)分析方法的优点和不足
    • 结论
    • 猜你喜欢
    • 写在后面

步骤(1):研究设计和实验方案。在宏基因组学中经常低估这一步骤的重要性。步骤(2):数据预处理。数据质量控制(quality control,QC)步骤最小化基本序列偏差,例如去除测序接头、质量修剪、去除测序重复(使用例如FastQC,Trimmomatic或Picard工具)。还过滤外源或非靶DNA序列,并且如果比较分类群或功能的多样性,则对样品进行二次采样以标准化读长数量。步骤(3):序列分析。根据实验目标,采用“基于读长”和/或“基于组装”的方法。两种方法都有优点和局限性(表4)。步骤(4):后处理。可以使用各种多变量统计技术来解释数据。步骤(5):验证。高维生物学数据的结论易受研究驱动的偏差影响,因此后续验证至关重要。

附图1. 用于规划宏基因组学研究的示例工作流程

Example workflow for planning a metagenomics study

全基因组扩增

Whole-genome amplification

  • 优点
    • 即使微量材料也可以产生足够的DNA用于测序
    • 可以应用于提取环境DNA
    • 可以在一类样品中扩增全部的物种
  • 缺点
    • 扩增会产生显著的偏差,对宏基因组表征产生影响
    • 扩增中产生嵌合体影响组装
    • 对感兴趣的物种无法改变其丰度比例(没有富集特定类群的能力)

单细胞基因组

Single-cell genomics

  • 优点
    • 可以从未培养的生物体中产生基因组
    • 可以与荧光原位杂交等靶向方法结合使用,以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群
    • 将基因组数据置于其正确的系统发育背景中
    • 参考基因组可以帮助宏基因组拼接
  • 缺点
    • 分离单个细胞是成本昂贵的,需要专业设备
    • 需要全基因组扩增的步骤
    • 在基因组扩增过程中容易引入偏差,因此通常只能回收部分基因组
    • 容易受到污染

流式分选

Flow sorting

  • 优点
    • 提供对感兴趣的细胞进行高通量分选的方法
    • 可以选择特定的分类群,包括那些可能是微生物群落中罕见成员的分类群
  • 缺点
    • 需要昂贵的设备和专业操作人员
    • 需要完整的细胞
    • 可能无法回收样品中附着于表面或固定在结构中的细胞,如生物膜
    • 可以收集的细胞数量受流速和分选体积的限制

原位富集

In situ enrichment

  • 优点
    • 简化微生物群落结构,可以更容易地从宏基因组学数据中组装基因组
    • 富集样品中特定分类群的存在,可以提供有关其在微生物群落中功能作用的线索
  • 缺点
    • 要求感兴趣的细胞可以在整个富集期内稳定地保持在微观世界中
    • 简化微生物群落结构,偏差有利于能够在微观世界中茁壮成长的生物

培养和微培养

Culture or microculture

  • 优点
    • 允许对表型特征的分离株进行广泛测试
    • 参考基因组可以帮助宏基因组拼接
    • 提供功能数据以改进宏基因组学注释
    • 将基因组数据置于其正确的系统发育背景中
  • 缺点
    • 通量低,可能是高度劳动密集型的工作(分几万个菌,点样就是一项体力活)
    • 受到在实验室中一些难培养微生物的限制(永远不可能培养所有微生物)
    • 不太可能恢复微生物群落的稀有成员,因为培养的分离物集合将由最丰富的生物体主导

序列捕获技术

Sequence capture technologies

  • 优点
    • 可以使用寡核苷酸探针来鉴定感兴趣的物种,如最近证明的不依赖于培养的病毒诊断(在病毒组研究中有广泛应用,如《NBT:宏基因组中设计全面可扩展探针捕获序列多样性》)
    • 通过仅关注感兴趣的物种,特别是当存在大量宿主污染时,可以实现更高的灵敏度
  • 缺点
    • 使用的试剂盒价格昂贵
    • 与PCR一样,当目标生物与用于设计探针的参考序列相比变异较大时无法捕获
    • 可以对目标生物进行不均匀的基因组覆盖,影响组装

免疫磁珠分离技术

Immunomagnetic separation

  • 优点
    • 可以富集特定的分类群,包括那些可能是微生物群落中相对罕见的成员
    • 远比单细胞基因组学或流式分选技术便宜得多
    • 与其他有针对性的浓缩技术相比,在技术上更具挑战性,且更耗时
  • 缺点
    • 需要完整的细胞
    • 需要针对目标靶细胞的特异性抗体
    • 如果目标细胞数量低,可能需要在细胞分离后进行全基因组扩增

背景(人和真核)消减技术

Background (human or eukaryotic) depletion techniques

  • 优点
    • 对于微生物细胞数远低于真核细胞的样品特别有用
    • 增强了对微生物基因组数据的检测
    • 需要较低的序列深度以获得良好的微生物基因组覆盖率,降低测序成本
    • 相对便宜,而不是技术上的挑战
  • 缺点
    • 在加工步骤中可能失去感兴趣的细菌DNA,并在随后的微生物组分析产生偏差
    • 可能引入污染

文库制备和测序

Library preparation and sequencing

文库制备和测序方法的选择取决于材料和服务的可用性、成本、易于自动化和DNA样品定量。 Illumina平台在鸟枪法宏基因组学中占据主导地位,因为它具有广泛的可用性,非常高的通量(每次运行高达1.5 Tb)和高精度(典型错误率为0.1-1%),尽管竞争的Ion Torrent S5或S5 XL仪器是另一种选择。诸如Oxford Nanopore MinION和Pacific Biosciences Sequel等长读长序列技术已经扩大了通量,现在每次运行可产生高达10 Gb,因此这些平台很快就会开始采用宏基因组学研究(详者注:两年后的今天,这些平台的准确度和通量均有明显的提升,而且已经有一大批采用三代测序的宏基因组文章率先发表于NBT杂志)。

三代测序应用于宏基因组的代表工作:

  • NBT:牛瘤胃微生物组的参考基因组集
  • NBT:宏基因组二、三代混合组装软件OPERA-MS
  • NBT封面:纳米孔宏基因组6小时识别下呼吸道病原体
  • 纳米孔测序揭示冻土冻融对土壤微生物群落变化的影响

鉴于在单次运行中可实现非常高的输出,通常通过多达96或384个样品的标签混样一次对多个宏基因组样品进行测序,通常使用可用于所有文库制备方案的双索引条形码集。 Illumina平台在测序批次间(运行之间)和测序批次内(运行中)之间存在交叉污染的问题。最近,人们越来越担心使用新扩增方法(ExAmp)的新型Illumina仪器会遇到更高比率的“索引跳跃(index hopping)”,其中不正确的条形码标识符被纳入增长的簇中,但这种问题在典型宏基因组学项目中的程度尚未经过评估,Illumina已经提出了减轻此问题的最佳实践。研究人员可以通过随机选择含有已知加内参孔作为阳性对照,和模板阴性对照来评估这些问题的程度。这些措施对于诊断宏基因组学项目尤其重要,其中少量病原体读长可能是高宿主污染背景下的感染信 。尽管在该领域仍然不常见,但技术重复对于评估可变性是有用的,并且即使对样本的子集进行重复也可以提供足够的信息以将技术与真正的变异区分开来。

有多种方法可用于制备Illumina测序文库,通常使用片段化的方法来区分。例如,Illumina Nextera和Nextera XT产品中使用的基于转座酶的“标记(tagmentation)”很受欢迎,因为它的成本低(每个样品25-40美元,稀释方法可以进一步降低这些成本)。标记方法需要小的DNA起始量(建议使用1 ng DNA,但可以使用更少的DNA)。由于随后的PCR扩增步骤,这种低输入是可接受的。然而,由于标记靶向特定序列基序,它可能引入扩增偏差以及众所周知的与PCR相关的GC含量偏差。减少这些偏差的一种方法是使用依赖于物理片段化的无PCR方法(例如,无PCR的TruSeq)来产生可以更能代表样品中潜在物种组成的测序文库。

这里没有针对给定环境或研究类型的“合适”覆盖量/测序量的通用标准,并且这种数字不太可能存在。根据经验,我们经常建议选择一个最大化测序输出的系统,以便从尽可能多的低丰度微生物组成员中检索序列。 Illumina HiSeq 2500或4000,NextSeq和NovaSeq产生大量序列数据(每次运行120 Gb和1.5 Tb),非常适合宏基因组学研究(需要注意关于索引跳跃的问题)。这些仪器每次运行的通量是已知的,并且通过确定混样的数量,研究者可以设置每样品的期望测序深度。 2017年的典型实验旨在产生1到10 Gb,但这些深度可能过高或不足,这取决于检测样品中稀有成员所需的灵敏度(详者注:我见过的测序数据量范围是6-300GB,这取决于你想要研究多低丰度的物种,通用最低量 6Gb = 150 bp X 2 X 2千万,可使1%丰度菌基因组测序深度 = 6GB*1%/5MB = 12X,0.1%只有1.2X,而通常纯菌要获得较完整的基因组也需要30-100X的深度)。

Illumina平台的主要区别在于其总产出数据量和最大的测序长度。 Illumina HiSeq 2500虽然现在已有两代历史,但却是鸟枪法宏基因组学的热门选择,因为它能够在快速运行模式下生成2×250-nt读长(每个流通槽可产生高达180 Gb)或最多1个Tb处于高输出模式,具有2×125-nt读数。较新的HiSeq 3000和4000系统进一步提高了运行的总通量(4000的最高可达1.5 Tb),但读取长度限制为150-nt。 NextSeq台式仪器具有与HiSeq 2500快速运行模式类似的输出,但仅限于读长150 nt。然而,NextSeq的成本不到HiSeq价格的一半,因此可能对希望操作自己的仪器的研究团队具有吸引力。最近发布的NovaSeq平台承诺在不久的将来每个流动槽通量可达3 Tb。 Illumina MiSeq受输出限制(在2 × 300-nt 模式下高达15 Gb),但仍然是单标记基因微生物组研究的事实标准。 MiSeq(或MiniSeq)可能仍然可用于对有限数量的样品进行测序或评估文库浓度和平衡条形码混池,在运行更高通量的仪器之前提供良好初步结果判断,其中单个运行(Run)花费可能 > 10,000美元。

宏基因组拼接

Metagenome assembly

已经公开了许多用于从序列读长库中重建微生物群落组成的方法。选择“最佳”是一项艰巨的任务,主要取决于研究的目的。

宏基因组从头/无参(de novo)组装/拼接在概念上类似于全基因组组装。 de Bruijn图方法目前是一种非常流行的宏基因组装方法。对于单草图的基因组拼接,通过将每个测序读长分解为固定长度k的重叠子序列来构建de Bruijn图。这组重叠的“k-mers”定义了de Bruijn图的顶点和边。组装程序的任务是找到重建基因组的图形路径。生成非基因组序列的序列错误和重复序列会使此任务变得复杂,这可能导致错误组装和碎片化。

宏基因组拼接呈现出独特的挑战。首先,当组装单个基因组时,通常假设沿着基因组的序列覆盖近似均匀。组装程序可以使用序列覆盖来识别重复拷贝,区分真实序列和测序错误,并识别等位基因变异宏基因的拼接更困难,因为每个基因组的覆盖范围取决于群落中每个基因组的丰度。如果总体测序深度不足以在图中形成连接,则低丰度基因组可能最终碎片化。在图形形成中使用短k-mer大小可以帮助恢复较低丰度的基因组,但这是以图中重复k-mer频率增加为代价,掩盖了基因组的正确重建。组装程序必须在恢复低丰度基因组和获得高丰度基因组的长而准确的重叠群之间取得平衡。第二个问题是样品可含有相同细菌种类的不同菌株。这些密切相关的基因组可以在组装图中引起分支,其中它们可以通过单核苷酸变体或整个基因或操纵子的存在或不存在而不同。组装程序通常会在这些分支点处停止,从而导致碎片重建。

特定的宏基因组的组装软件试图克服这些挑战。 Meta-IDBA使用多重k-mer方法来避免选择适合低丰度物种和高丰度物种的k-mer长度的任务。 Meta-IDBA具有对de Bruijn图分区的扩展(与MetaVelvet一样),最新版本IDBA-UD优化了不均匀序列深度分布的重建。 SPAdes组装程序已扩展用于宏基因组装配,可用于组装使用不同技术测序的数据(二、三混合组装)

对于可能包含数百种菌株的复杂样品,必须尽可能增加测序深度。计算时间和内存可能不足以完成这样的组装。分布式组装程序,例如Ray,它在一组计算机集群上分布内存负载,已被用于组装来自人类粪便样本的宏基因组。为了帮助组装非常复杂的样品,Pell等人开发了一种轻量级方法,将宏基因组装图分割成可以独立组装的连接组件。另一种方法是潜在的菌株分析,使用k-mer丰度模式对读长进行分区,这样可以使用有限量的内存组装各个低丰度基因组。 MEGAHIT使用简洁的数据结构来降低组装复杂宏基因组的内存需求,并实现非常快的运行时间

MEGAHIT的文章导读和软件使用教程如下:

  • MEGAHIT:多快好省的宏基因组装工具
  • 组装拼接MEGAHIT和评估quast

关于不同装配软件的关键指标(如完整性,连续性和产生嵌合重叠群的倾向)方面的表现,几乎没有同行的共识。尽管宏基因组分析“烘焙比赛(bake-offs)”旨在为分析软件提出具体建议,但软件性能很可能取决于生物因素(例如,潜在的微生物群落结构)和技术因素(例如,测序平台特征和覆盖范围)。在Assemblathon项目中观察到没有一个组装软件表现出“最佳”。

我们分析了模拟合成和真实群落的组装结果(表2和表3)。我们评估了MEGAHIT和metaSPAdes从模拟群体中重建已知基因组并捕获真实数据集中的分类学和基因多样性的能力。两者都成功地重建了超过75%的模拟群落 – 一个包含20个生物,另一个包含49个细菌和10个古菌。 MetaSPAdes产生更长的重叠群,但这些似乎不太准确。当限于与模拟群落中的参考序列完全匹配的重叠群时,MEGAHIT成功地重建了更多真正的基因组。因此,在这种情况下选择组装软件将取决于重叠群大小与准确度的相对重要性。在真实数据集(表3)中,难以辨别一致的模式。然而,检查中等单拷贝核心基因数(以估计组装中的基因组数量)表明,对于更复杂的土壤和海洋群落,MEGAHIT汇集了更多可以在功能上注释的基因。这里的关键结论是,不同的最先进程序对于不同的数据集将是最佳的,同时需要相似的运行时间(在最大样本上使用16个线程约48小时)和内存使用峰值(不超过125 GB)。因此,谨慎尝试不止一种组装方法。 CAMI挑战 告称,MEGAHIT在其基准数据集中是位于前三名的宏基因组拼接软件,并且与metaSPAdes(未在CAMI中评估)一起,可能是当前最佳选择。无论使用哪种组装软件,结果都不是基因组,而是潜在的数百万个重叠群,这促使需要使用分箱工具将重叠群连接回它们所衍生的基因组。

表2. 基于已知成份的模拟群落评估宏基因组拼接

Table 2: Comparative evaluation of metagenomic assembly on mock microbial communities with known composition

使用如表2中 告的SPAdes和MegaHIT产生组装。通过HMP(二次取样5千万读长的宏基因组)在对肠样品进行测序 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/HMP_GUT_SRS052697.25M.2.fastq.gz ),Ofek-Lalzar等人的土壤样本(5000万读长子样本宏基因组, 址为 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/SOIL_NATCOMM.25M.2.fastq.gz )和Sunagawa等人的海洋样本( https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.1.fastq.gz 和 https://mgexamples.s3.climb.ac.uk/TARA_OCEAN.25M.2.fastq.gz ,有5000万读取子采样的宏基因组) 。功能注释如前所述进行,使用Prodigal(使用默认参数和“-p meta”标志运行)从组装的重叠群中鉴定的基因总数,与NCBI非冗余(nr)数据匹配使用DIAMOND以95%同一性设定,36个通用COGs,COGs的单核基因使用rpsblast以e值,KEGG orthologs使用DIAMOND的blastp和默认参数注释。

重叠群分箱

Binning contigs

宏基因组拼接高度分散,包含数千个重叠群(表2),研究人员不知道哪个重叠群来自哪个基因组,甚至不知道有多少基因组存在。重叠群“分箱”的目的是将重叠群分为物种。有监督的分箱方法使用已经测序的基因组数据库将重叠群标记为分类学类别。无监督(聚类)方法在数据中查找自然组

监督和非监督方法都有两个主要元素:用于定义给定重叠群和分箱之间相似性的度量,以及将这些相似性转换为赋值的算法。对于物种分类学,针对已知基因组的重叠群同源性是一种潜在有用的方法,但大多数微生物物种尚未测序,因此大部分重建的基因组片段不能比对到参考基因组。这促使使用重叠群序列进行分箱。不同的微生物物种的基因组包含特定的碱基组合,这导致不同的k-mer频率。基于这些k-mer频率的度量可用于对重叠群进行分组,其中四聚体(4 k-mer)被认为是对宏基因组学数据进行分类的最有用信息。基于这些频率的许多软件选择可供选择,例如朴素贝叶斯分类器或支持向量机,但序列组成通常缺乏将复杂数据集解析到复杂群落中物种水平所必需的特异性。

重叠群的聚类分析非常有吸引力,因为它不需要参考基因组。直到最近,大多数重叠群聚类算法,例如MetaWatt和SCIMM,使用了各种物种组成指标,有时还与总覆盖率相结合。最近,随着多样本宏基因组数据集的产生,研究人员已经意识到跨多个样本的重叠群覆盖提供了更强大的信 ,可以将重叠群聚集在一起。基本原则是来自相同基因组的重叠群在每个宏基因组内具有相似的覆盖值,尽管基因组内GC含量变异和细菌复制起点周围的读长深度增加可以挑战这一假设。例如,第一种算法,例如扩展的自身比对,需要人工输入来执行聚类,这是基于可以在二维中可视化的覆盖信息和组成。现在可以使用完全自动化的方法,例如CONCOCT,GroopM和MetaBAT,它们便于大数据集,但是当结合人工细化时可以获得更好的结果,例如使用可视化工具,例如Anvio。

当前已经有很多更新的分箱方法和提纯工具,如:

  • Microbiome:宏基因组分箱流程MetaWRAP 简介 安装和数据库部署 实战和结果解读
  • DAS工具: 利用去重、聚合和评分的策略从宏基因组中恢复基因组
  • NBT:宏基因组”读云”10X建库+雅典娜算法组装获得微生物高质量基因组

重建宏基因组装基因组(metagenomic assembled genomes,MAG)的方法对于揭示细菌的多样性是必不可少的。从富含醋酸盐和过滤的地下水样品中回收来自候选门的近1,000个MAG,没有培养的代表,显示了这种方法的潜力。回收的基因组很小,新陈代谢最少,并且形成了与先前培养的细菌多样性分开的单系分支。这些已被提议作为新的细菌细分,通过宏基因组学揭示候选Radiation门。

通过检查在大多数微生物基因组中发现的单拷贝核心基因来评估MAG的完整性,例如tRNA合成酶或核糖体蛋白。纯MAG将使所有这些基因以单拷贝存在。构建后,MAG为比较基因组学提供了丰富的数据集,包括构建系统发育树,功能谱和样本中MAG丰度的比较(图2,补充代码和 https://github.com/chrisquince/metag-rev-sup )。

图2. 无参和有参宏基因组物种表征

Figure 2: Assembly-based and assembly-free metagenome profiling.

鸟枪法宏基因组研究存在一些局限性和挑战。局限性包括

  • 准入门槛高 Entry-level access

在无法获得测序和计算设施的情况下,对大量宏基因组进行测序和分析仍然很昂贵。改进的测序平台和云计算设施的发展将会降低这些入门级成本。

  • 基因组目录的全面性 Comprehensiveness of genome catalogs

可用的 > 50,000个微生物基因组的集合偏向模式生物,病原体和易培养的细菌。所有宏基因组计算工具在某种程度上依赖于可用的基因组,因此它们受参考序列资源中偏差的影响。

  • 功能组成分析中存在偏差 Biases in functional profiling

由于大多数基因缺乏有效的注释,因此宏基因组中存在的功能类别的分析受到阻碍,这个问题只能通过昂贵且低通量的基因特异性功能研究来缓解。此外,内在的微生物组特性,例如其平均基因组大小,可以严重影响定量分析。

  • 微生物暗物质 Microbial dark matter

以前,基于培养的方法或宏基因组学可能尚未对微生物组的若干成员进行过表征。基于装配的方法可以恢复部分“微生物暗物质”。在组装后,一小部分读长仍可能未被使用,并且该部分的大小高度依赖于群落结构和复杂性(表2和3)。它还受到诸如测序噪音,污染物DNA和微生物以及质粒的影响,即使在其基因组的部分组装后仍保持在分类学上模糊不清。

  • “活着或死亡”的困境 ‘Live or dead’ dilemma

在宿主细胞死亡后,DNA在环境中持续存在,因此测序结果可能不代表活性微生物群体。如果目的是研究活性微生物,可以使用结合游离DNA的化合物如异丙脒(propidium monazide),去除死亡或受损细胞内的DNA,或使用宏转录组技术研究有活跃表达的RNA部分。

  • 组成型数据的魔咒 ‘Curse of compositionality’

定量宏基因组特征 告结果为相对总体的比例,与实际绝对浓度无关。因此,样品中真实浓度的变化可能产生错误的相关性。例如,如果高度丰富的生物体在两个相同的样品中使其浓度加倍,则样品中的所有其他生物在标准化后似乎丰度都存在差异。

  • 粘膜相关的微生物组测序 Mucosa-associated microbiome sequencing

人体粘膜组织是微生物与免疫系统之间的关键界面,但由于人类DNA的极高比例和微生物量低,因此用鸟枪法宏基因组学对粘膜微生物组进行测序是非常具有挑战性的。

鸟枪法宏基因组研究也提供了众多机遇,例如:

  • 整合宏组学 Integrative meta-omics

尽管使用RNA、蛋白质和代谢组学高通量检测可以对DNA测序进行有效补充,但是使用鸟枪法宏转录组学、基于质谱的宏蛋白质组学和代谢组学,目前尚不清楚如何在共同框架内整合和分析宏组学数据。

整合宏组学的方法,可参考此文:《Nature Protocols:整合宏基因组、代谢组和表型分析的的计算框架》

  • 病毒组鸟枪法测序 Virome shotgun sequencing

可以通过鸟枪法宏基因组学检测病毒,但通常需要病毒体富集技术来获取更广泛的病毒。由于病毒基因组的可用性有限以及缺乏家族间系统发育信 ,病毒组分析在计算上也具有挑战性。关于病毒组靶方富集的方法参考:《NBT:宏基因组中设计全面可扩展探针捕获序列多样性》。关于病毒组的常规分析套路,参考:《EID:宏基因组测序在新发腹泻病毒鉴定中的应用》

  • 株水平组成分析 Strain-level profiling

单一分离物测序的基因组分辨率仍然高于宏基因组背景下单个生物体的分辨率。将分析分辨率提高到单一菌株水平对于深入的群体基因组学和微生物流行病学至关重要。

  • 纵向研究设计 Longitudinal study design

许多鸟枪法宏基因组研究是横断面的,因此没有用于评估相互作用与受试者内部变异性和微生物组时间变异。已经开发了用于纵向队列研究的工具,但是需要更多的方法和数据来研究时间维度。

  • 解开因果 Disentangling cause from effect

来自宏基因组研究的假设应该跟进实验工作以验证相关性和关联。纵向和前瞻性设置可以潜在地提供对感兴趣病症的致病动态的直接见解。

  • 验证微生物组生物标志物 Validation of microbiome biomarkers

给定条件的微生物组生物标志物通常具有强烈的研究依赖性。因此,重要的是验证技术和群组中的生物标记物,以提高重现性并最小化批次效应。

  • 数据共享和分析的可重复性 Data sharing and analysis reproducibility

强烈鼓励数据和元数据共享; 通常在发布和开源软件之前要求进行原始数据存储。然而,宏基因组学尚未达到其他更成熟的高通量技术的标准化特征水平。

下游分析

Post-processing analysis

无论用于初级宏基因组序列分析的方法如何,输出将包括样品与微生物特征(即物种、分类群、基因和通路)的数据矩阵。后处理分析使用统计工具来解释这些矩阵,并解释结果与样本元数据的关联程度。许多这些统计方法并不特定于宏基因组学。宏基因组衍生的定量值具体挑战,包括物种和功能组成的比例性质以及丰度的对数正态长尾分布。这些问题在高通量16S rRNA基因扩增子测序数据集中也存在问题,并且几种流行的R包,如最初为扩增子测序开发的DESeq2,vegan和metagenomeSeq,也可用于宏基因组学。

后处理工具包括传统的多变量统计和机器学习。无监督方法包括样本的简单聚类和相关,以及可视化技术,例如热图,排序(例如,主成分分析和主坐标分析)或 络,其允许以图形方式显示数据中的模式。一些无监督的统计工具旨在专门解决由宏基因组概况(组成型问题)(框1)的比例性质引入的问题,并推断群落内的生态关系。监督方法包括统计方法,例如用于组间差异直接假设检验的多变量方差分析(ANOVA),或训练模型标记样本组的机器学习分类器,例如随机森林或支持向量机。一个典型的机器学习例子是基于群落生态失调来诊断疾病(例如,型糖尿病),尽管开发交叉研究预测特征的研究具有挑战性。

无监督和有监督的方法将整个群落视为一个整体。补充策略是询问哪些特定分类群或功能基因在样本类型或患者组之间在统计学上是不同的。鉴于宏基因组学数据集的复杂性,和通常可以进行的大量比较、多重比较或效应大小估计的校正是至关重要的。

稳健的统计检验是确定结果有效性的关键,但简洁的图形表示可以直观地揭示模式。在许多情况下,后处理结果的可视化需要特殊的图形工具和精心选择通用的可视化方法。

展望

Outlook

宏基因组生物信息学工具正在不断改进,特别是用于将原始读长序列解析成有意义的微生物特征(基因组、物种丰度和功能潜能特征)(图1)。例如,现在可以进行种水平分析,但关于哪种序列分析方法最好(表4)仍存在争议。如果有足够的基因组覆盖率(即超过20倍),则宏基因组组装是优先选择的理论解决方案,但是对于大多数微生物组成员来说这种覆盖水平很难获得(表4),并且不组装的方法具有其他优点,包括进行大规模种水平分析的潜力。这两种方法的成功取决于微生物群落的组成和复杂性、测序深度、数据集的大小和可用的计算资源(表4)。我们建议研究人员尽可能使用这两种方法进行序列分析,因为它们相互补充和验证

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月15日
下一篇 2019年8月15日

相关推荐