fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

5.2

接头处理

接头(adapter)污染的处理是 FASTQ 文件预处理中很重要的一步。fastp 默认启用了接头处理,但是可以使用-A 命令来关掉。fastp 可以自动化地查找接头序列并进行剪裁,也就是说你可以不输入任何的接头序列,fastp 全自动搞定了!对于 SE 数据,你还是可以-a 参数来输入你的接头,而对于 PE 数据则完全没有必要,fastp 基于PE 数据的 overlap 分析可以更准确地查找接头,去得更干净,而且对于一些接头本身就有碱基不匹配情况处理得更好。fastp 对于接头去除会有一个汇总的 告,如下图所示:

上图中所示的标红的 T 碱基是低质量序列,和高质量的 A 不匹配,它会被校正为 A。该校正功能默认没有开启使用-c 参数可以启用,对于一些对噪声容忍度低的应用,比如液体活检,建议开启。

5.5

全局剪裁

fastp 可以对所有 read 在头部和尾部进行统一剪裁,该功能在去除一些测序质量不好的 cycle 比较有用,比如 151*2 的 PE 测序中,最后一个 cycle 通常质量是非常低的,需要剪裁掉。使用-f 和-t 分别指定 read1 的头部和尾部的剪裁,使用-F和-T 分别指定 read2 的头部和尾部的剪裁。

5.6

polyG 剪裁

对于两色发光法的 Illumina 设备(NextSeq / NovaSeq),因为在没有光信 情况下 base calling 的结果会返回 G,所以在序列的尾端可能会出现较多的 polyG,需要被去除。fastp会自动化地识别NextSeq / NovaSeq的数据,然后进行polyG识别和剪裁。如果你想强制开启该功能,可以指定-g 参数,如果想强制关闭该功能,则可以指定-G 参数。

5.7

分子标签 UMI 处理

UMI 在处理 ctDNA 类似的超低频突变检测应用中是十分有用的,为了更好地对带 UMI 的 FASTQ 文件进行预处理,fastp 也很好地支持了 UMI 预处理功能。该 功能默认没有启用,需要使用-U 参数开启,另外需要使用–umi_loc 来指定 UMI所在的位置,它可以是(index1、index2、read1、read2、per_index、per_read ) 中的一种,分别表示 UMI 是在 index 位置上,还是在插入片段中。如果指定了是在插入序列中,还需要使用 –umi_len 参数来指定 UMI 所占的碱基长度。

5.8

输出文件切分

很多时候我们需要对输出的 FASTQ 进行切分,分成大小均匀的多个文件,这样可以使用比对软件并行地比对,高并行处理的速度。fastp 软件也供了相应的功能,并且支持了两种模式,分别是使用参数-s 指定切分后文件的个数,或者 使用-S 参数指定每个切分后文件的行数。

第六部分

  质控 告解读  

接下来,我们再看一下如何理解 fastp 生成的质控 告。

fastp 的 告在单一文件中同时包含了过滤前和过滤后的统计结果,如果是 PE 数据,则同时包含了 read1和 read2 的统计结果。之前我们已经说过了,fastp 会生成 HTML 的 告和 JSON格式的 告。HTML 告的默认文件名是 fastp.html,但是可以通过-h 参数修改,JSON 告的默认文件名是 fastp.json,但是可以通过-j 参数修改。而且 fastp 告还有一个标题,默认是 fastp report,这个也可以通过-R 参数修改为你想要的标题。JSON 格式的 告是优化过的,人机皆可读,适合进阶的用户使用程序解析,而这里我们重点关注 HTML 格式的 告。

6.1

质量含量分布曲线

我们第一关注的当然是质量,所以 fastp 供了质量分布曲线,即每一个 cycle的平均质量值,而且 fastp 同时供了 A/T/C/G 四种不同碱基的平均质量,以及总的平均质量,如下图所示:

从图中可以看到,fastp同时显示了A/T/C/G/N/GC 的每一个位置的比例和总的比例。而且如果你觉得头部那里比较乱看不清的话,可以用鼠标拉一个框,它就放大了。

6.3

KMER 统计表格

fastp 对 5 个碱基长度的所有组合的出现次数进行了统计,然后把它放在了一张表格中,表格的每一个元素为深背景白字,背景越深,则表示重复次数越多。这 样,一眼望去,就可以发现有哪些异常的信息。

第七部分

  结语  

好了,本次 fastp 的介绍就到此结束了。

fastp 软件还在不断更新中,目前每星期都有新功能开发出来,所以要想了解 fastp 软件的最新动态,请关注该软件的github 项目地址 https://github.com/OpenGene/fastp

第八部分

招聘信息

目前,海普洛斯生物信息学团队正在召唤以下精英人才:

岗位一:生物信息学分析主管(科研服务方向)

任职要求:
5 年以上生物信息学分析相关经验
3 年以上科服领域分析经验和 2 年以上的团队带领经验
精通 Python/R/C/C++/WEB/SHELL/Perl 编程技术中的一种或多种
熟悉 Linux/docker/git 等基础应用工具
精通单细胞 WGS/WES、RNA-Seq、BS-Seq、肿瘤 WGS/WES 等分析中的多种

岗位二:生物信息学工程师(科研服务方向)

任职要求:
2 年以上生物信息学分析相关经验
1 年以上科服领域分析经验
熟悉 Python/R/C/C++/WEB/SHELL/Perl 编程技术中的一种或多种熟悉单细胞 WGS、单细胞 WES、RNA-Seq、BS-Seq、肿瘤 WGS/WES 等分析中的两种以上

岗位三:生物信息学软件开发工程师

任职要求:
对编程的极度热爱,并热衷于使用 IT 技术解读生命密码

对生物信息学较深度的了解
精通 C/C++/Python/R/Go/WEB 编程技术的两种或以上
熟悉 FASTQ/BAM/SAM/VCF 等不同的数据格式和相应的操作库

以上岗位,除主管之外,都可以实习。如果你足够优秀,以上的条件多条都可以作废。可选工作地点有两个,穿衣很省空气好的深圳,或者风景秀丽房价低的江西上饶。

如果有小伙伴想要加入,体验开源开放的团队文化和全栈的开发环境,请速速将简历传送到 chen@haplox.com,并抄送到 hr@haplox.com,或者添加以下微信进行勾搭(微信 :opengene):

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年3月7日
下一篇 2018年3月7日

相关推荐