NanoPlot:三代纳米孔测序数据质量评估

简介

二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC。此外速度超快的fastp也特别推荐,而且包括质量评估、质量控制等功能,可以说是国产软件之光,详见下方详细教程:

  • 数据的质量控制软件——FastQC

  • 整合QC质控结果的利器——MultiQC

  • 极速的FASTQ文件质控+过滤+校正fastp

三代纳米孔(Nanopore)测序数据与二代Illumina测序数据相比,具有读长更长、错误率高、长度分布不均匀等特点。传统的二代数据质量评估软件不适合,甚至无法开展分析(fastqc处理三代fastq文件直接 错)。今天为大家介绍一款常用的Nanopore数据评估软件——NanoPlot,该软件于2018年发表于Bioinformatics(https://doi.org/10.1093/bioinformatics/bty149),截止2020年9月16日Google Scholar统计被引218次。

这是比较均匀的长度分布图。但很多时候是看不清楚的,如下图:

以10为底的对数转换长度。看到数据最大的峰主要分布在1K – 10K间。

X轴为长度,Y轴是碱基数量,更好地看出不同长度上的碱基数量分布。如果较紧密,可查看下面的log10转换结果

长度产出图 Yield by length

六边形图(蜂窝图)展示长度和质量的分布,色深代表序列数量。两侧加柱状图进一步呈现长度和质量的分布情况。

此外还有点图,核密度如等展示方式。

其他常见结果

guppy碱基识别后生成的统计文件sequencing_summary.txt进行绘图时,会有更多种类的图。其中部分如下:

每个通道的产量分布 Number of reads generated per channel

小提琴图展示不同时间产生读长的长度分布

扩展功能

  • NanoComp: 多样本比较工具

  • NanoStat: 读长或比对结果的统计摘要 告

  • NanoFilt: 读长的过滤和剪切

  • NanoLyse: 从fastq文件中移除污染序列

Reference

Wouter De Coster, Svenn D’Hert, Darrin T Schultz, Marc Cruts & Christine Van Broeckhoven. (2018). NanoPack: visualizing and processing long-read sequencing data. Bioinformatics 34, 2666-2669, doi: https://doi.org/10.1093/bioinformatics/bty149

nanopore测序技术专题(十五):利用NanoPlot进行数据质控 https://mp.weixin.qq.com/s/q9SS1KDBP6iBxmnZk0_-LQ

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能机器学习工具包Scikit-learn210734 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年8月18日
下一篇 2020年8月18日

相关推荐