一文读懂微生物扩增子16s测序

微生物多样性测序结果如何看/strong>

做过16s测序的小伙伴们都知道

测完之后会拿到一份结果告

但这并不代表可以开始写文章了

看似一大堆数据图表却不知如何下手

这是很多人头疼的地方

那么怎样给告中的数据赋予灵魂

让它真正成为对你有帮助的分析呢/p>

一文扫除困惑

环境样品高通量分析需要重复么/strong>

基于高通量测序主要是为了了解样品的菌群构成和功能分析，以及寻找不同环境之间的差异，包括菌和功能基因以及代谢。如果仅做单一样本，很可能结论只能代表这个单一取样样本的信息，无法排除不同样本重复之间的差异，也就可能得不到真正代表环境差异的结果。

所以环境样品不仅要重复而且还应该以分组方式取尽量多的样本以全面的代表一个环境条件下的各种变异情况。

测序区段如何选择

确定做重复后，又面临该怎么选择测序区段的问题。目前市面上有v1-v3区/v3-v4区/v4区等可供选择。

16S rRNA编码基因序列共有9个保守区和9个高可变区。其中，V4区其特异性好，数据库信息全，我们通过大量的测序试验证明用v4区扩增出菌群结果的可以很好的反应样本的菌群结构用于后续的数据建模分析，是细菌多样性分析注释的最佳选择。

其中SampleName表示样本名称；SampleSize表示样本序列总数；OTUsNumber表示注释上的OTU数目；OTUsSeq表示注释上OTU的样本序列总数。

Coverage是指各样品文库的覆盖率，其数值越高，则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为：C=1-n1/N 其中n1 = 只含有一条序列的OTU的数目；N = 抽样中出现的总的序列数目。

下表是对每个样本在分类字水平上的数量进行统计，并且在表栺中列出了在每个分类字水平上的物种数目

横坐标中每一个条形图代表一个样本，纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别（门、纲、目等）的序列数目，序列数目只计算级别最低的分类，例如在属中计算过了，则在科中则不重复计算。

我们还需要对样本之间或分组之间的OTU进行比较获得韦恩图：

横坐标代表随机抽取的序列数量；纵坐标代表观测到的OTU数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。

Shannon-Winner曲线

Shannon-Wiener 曲线，是利用shannon指数来进行绘制的，反映样品中微生物多样性的指数，利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线，以此反映各样本在不同测序数量时的微生物多样性。

当曲线趋向平坦时，说明测序数据量足够大，可以反映样品中绝大多数的微生物物种信息。

其中，Sobs= 实际测量出的OTU数目；

ni= 含有i 条序列的OTU数目；N = 所有的序列数。

Rank-Abundance曲线

该曲线用于同时解释样品多样性的两个方面，即样品所含物种的丰富程度和均匀程度。

看了那么多指数，可能觉得有点晕，到底每个指数是什么意思呢/p>

当然要解释下咯：

Chao1：是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数，由Chao (1984) 最早提出。Chao1值越大代表物种总数越多。

Schao1=Sobs+n1(n1-1)/2(n2+1)

其中Schao1为估计的OTU数，Sobs为观测到的OTU数，n1为只有一条序列的OTU数目，n2为只有两条序列的OTU数目。

Shannon：用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大，说明群落多样性越高。

Ace：用来估计群落中含有OTU 数目的指数，由Chao 提出，是生态学中估计物种总数的常用指数之一，与Chao1 的算法不同。

Simpson：用来估算样品中微生物的多样性指数之一，由Edward Hugh Simpson ( 1949) 提出，在生态学中常用来定量的描述一个区域的生物多样性。Simpson 指数值越大，说明群落多样性越高。

Beta多样性分析（样品间差异分析）

也许我们有听说Beta多样性在最近10年间成为生物多样性研究的热点问题之一。具体解释下：

Beta多样性度量时空尺度上物种组成的变化, 是生物多样性的重要组成部分, 与许多生态学和进化生物学问题密切相关！

PCoA分析

PCoA（principal co-ordinates analysis）是一种研究数据相似性或差异性的可视化方法，通过一系列的特征值和特征向量进行排序后，选择主要排在前几位的特征值，PCoA 可以找到距离矩阵中最主要的坐标，结果是数据矩阵的一个旋转，它没有改变样品点之间的相互位置关系，只是改变了坐标系统。

详细关于主成分分析的解释推荐大家看一篇文章，http://blog.csdn.net/aywhehe/article/details/5736659

一起来看看包含PCoA研究的文章

案例解析

PCoA 图可以清楚地看到，SW区细菌群落的置信椭圆与pd和sd的置信椭圆有显著的偏差(p0.05)，这表明pd和sd上的细菌群落有相似之处。

不同样本和处理下的细菌群落（前 10 位）丰度分布

研究结论：首先，营养物质 (TN 和 TP) 与生物膜的平均生长速率呈正相关，而盐度与生物膜的平均生长速率呈负相关。盐度是影响PD的个细菌多样性的主要因素，而温度、溶解氧和养分(TN和TP)在类似的盐度条件下可能具有二次效应。尽管种聚合物类型对PD上的细菌群落的多样性具有较少的影响，但是在细菌群落中的一些属显示对PD的聚合物类型的选择性，并且倾向于将其优选的基质定殖。大的相对丰度SW、PD、SD间属显著差异。盐度是改变河口地区Pd条件致病菌富集的主要因素。另外，在种病原物种丰富的基础上，PD具有较高的致病性。

NMDS分析（非度量多维尺度分析）

NMDS（Nonmetric Multidimensional Scaling）常用于比对样本组之间的差异，可以基于进化关系或数量距离矩阵。

图解读：样本与物种的共线性关系图，左半边表示样本属物种丰度情况。右半边表示属水平在不同样本中的分布比例情况。在最内一圈：左边不同颜色代表不同物种，宽度表示物种丰度，圈外数值表示物种丰度刻度值。一端连接右边的样本，不同颜色代表不同样本，条带端点宽度表示该样本中对应物种的比例分布。最外两圈：左边不同颜色表示不同样本在某一物种的比例，右边不同颜色表示不同物种在某一样本中的比例。

Ternary三元相图

三元相图是重心图的一种，它有三个变量，在一个等边三角形坐标系中，图中某一点的位置代表三个变量间的比例关系。这里表示三组样本之间优势物种的差异，通过三元图可以展示出不同物种在分组中的比重关系。

图解读：三角分别代表三个或三组样本，图中的圆分别代表排名最高哦的属水平的物种，三种颜色分别代表三组不同分组的优势物种，圆圈大小代表物种的相对丰度，圆圈理哪个顶点接近，表示此物种在这个分组中的含量较高。该分析仅限三个样本或三组样本之间分析比较。

相关系数图

通过R 软件的corrplot 包绘制spearman 相关性热图，并通过该热图可以发现优势物种/样本之间重要的模式与关系。

研究背景：研究表明遗传和环境影响都在I型糖尿病的发展中起作用，增加的遗传风险不足以引起疾病，环境因素也是需要的，而且起着至关重要的作用。肠道菌群也许就是这个重要的环境因素，肠道菌群在免疫系统的成熟中起重要作用，此外还影响自身免疫疾病发展。

不同遗传风险分组中包含的常见菌属，部分存在特定分组中

点评：针对I型糖尿病疾病发生过程中遗传HLA分型风险和对应肠道菌群菌的关联分析，揭示了特定肠道菌群与宿主特定遗传风险共同作用推进疾病发生。某些特定菌属可能无法在遗传高风险儿童肠道内定植，可能对疾病发生存在特定作用。此外对于其他遗传风险的自身免疫疾病也具有重要提示意义，例如乳糜泻和类风湿性关节炎。

物种进化树的样本群落分布图

这是另一款和LDA长得有点像的图，当然功能可完全不一样。它是将不同样本的群落构成及分布以物种分类树的形式在一个环图中展示。数据经过分析后，将物种分类树和分类丰度信息通过这款软件GraPhlAn进行绘制

(http://huttenhower.sph.harvard.edu/GraPhlAn )。

其目的是将物种之间的进化关系以及不同样本的物种分布丰度和最高分布样本的信息在一个视觉集中的环图中一次展示，其提供的信息量较其他图最为丰富。

○ 图中每一个点代表一个物种，存在相关性的物种用连线连接。

○ 红色的连线代表负相关，绿色的先代表正相关。

○ 连线颜色的深浅代表相关性的高低。

物种相关性络图B

受到水分条件影响的土壤菌群代谢途径和络分布

○ 热图中的每一个色块代表一个样品的一个属的丰度

○ 样品横向排列，属纵向排列

○ 差异是是否对样品进行聚类，从聚类中可以了解样品之间的相似性以及属水平上的群落构成相似性。

Tips：

如果聚类结果中出现大面积的白或黑是因为大量的菌含量非常低，导致都没有数值，可以在绘制之前进行标准化操作，对每一类菌单独自身进行Z标准化。

案例解析

GDM加高脂血症（M队列）妊娠期间与显著改变的脂质相关的肠道微生物群（属）

组间物种差异性箱形图

组间物种差异性盒形图描述在不同分组之间具有差异显著的某一物种做盒形图，图中以属水平为例做物种差异性盒形图，展示如下：

物种重要性点图。横坐标为重要性水平，纵坐标为按照重要性排序后的物种名称。上图反映了分类器中对分类效果起主要作用的菌属，按作用从大到小排列。

Error rate: 表示使用下方的特征进行随机森林方法预测分类的错误率，越高表示基于菌属特征分类准确度不高，可能分组之间菌属特征不明显。图中以所有水平为例，取前60个作图。

ROC曲线图

ROC 曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标，通过构图法揭示敏感性和特异性的相互关系。

ROC 曲线将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线。

曲线下面积越大，诊断准确性越高。展示如下：

基于BugBase的表型分类比较

Bugbase也是16年所提供服务的一款免费在线16S功能预测工具，到今年才发表文章公布其软件原理。该工具主要进行表型预测，其中表型类型包括革兰氏阳性、革兰氏阴性、生物膜形成、致病性、移动元件、氧需求，包括厌氧菌、好氧菌、兼性菌）及氧化胁迫耐受等7类。

此处提供COG，KO基因预测以及KEGG代谢途径预测。当然，跃跃欲试的小伙伴也可自行使用我们提供的文件和软件（STAMP）对不同层级以及不同分组之间进行统计分析和制图，以及选择不同的统计方法和显著性水平。

这里提到的STAMP有些小伙伴说不太了解，别急，后面会有更多介绍。

COG构成差异分析图

图中不同颜色代表不同的分组，列出了COG构成在组间存在显著差异的功能分类以及在各组的比例，此外右侧还给出了差异的比例和置信区间以及P-value。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

一文读懂微生物扩增子16s测序

相关推荐