数据的质量控制软件——fastQC

Summary 概要

本部分就是整个 告的目录,整个 告分成若干个部分。合格会有个绿色的对勾,警告是黄色叹 ,不合格是红叉。

Basic Statistics 基本信息

用箱式图的方式展示数据质量,图中X轴每1个位置,都是该位置的所有序列的测序质量的统计。纵轴是质量得分,Q =-10*log10(p),p为测错的概率。所以一条reads某位置出错概率0.01时,其quality就是20。横轴是测序序列的位置。蓝色线是各个位置的平均值的连线。一般要求此图中,所有位置的10%分位数大于20,也就是常说的Q20过滤。

所以上面的这个测序结果质量很好。如果任何碱基质量低于10,或者是任何中位数低于25 警,如果任何碱基质量低于5,或者是任何中位数低于20 错。

这是为了检测一部分质量特别差的reads,如果有则会在图上出现多个峰,如在测序仪边缘的reads。纵轴是reads数目,横轴是质量分数,代表不同Phred值对应了多少的reads。

本图中,测序结果主要集中在高分中,证明测序质量良好。当峰值小于27(错误率0.2%)时警 ,当峰值小于20(错误率1%)时不合格。

图中红色曲线是实际的测序GC含量分布图,而蓝色曲线则是理论分布(正态分布,不过均值不一定都是50%,而是由平均GC含量推断的)。如果红色曲线形状存在比较大的偏差,往往是由于文库污染造成的。红色曲线越平滑越好,越接近蓝色曲线越好。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时发出警 ,超过30%时 不合格。

每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差,如此图中,40bp是主要的,但是还是有少量的39和41bp的长度,不过数量比较少,不影响后续分析,当测序的长度有很大不同时,则表明测序仪在此次测序过程中产生的数据不可信,但对于某些测序平台,具有不同的read长度是完全正常的。当reads长度不一致时警告,当有长度为0的read时不合格。

如果有某个序列大量出现,就叫做over-represented。标准是占全部reads的0.1%以上。但是因为用的是Duplicate sequences前200,000条数据,所以有可能over-represented reads不在里面,参考意义不大。

这个图统计的是,在序列中某些特征的短序列重复出现的次数,我们可以看到11-14bp的时候图例中的短序列出现了非常多的次数,一般来说,出现这种情况,要么是adapter没有去除干净,而又没有使用-a参数;要么就是序列本身可能重复度比较高,如建库PCR的时候出现了bias。

 

更多详细信息参考fastQC使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

数据的质量控制软件——fastQC

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年8月24日
下一篇 2018年8月24日

相关推荐