生信软件 | FastQC
介绍
- 高通量测序数据的高级质控工具
- 输入FastQ,SAM,BAM文件,输出对测序数据评估的 页 告
安装
这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解
使用
-o –outdir:输出路径
–extract:结果文件解压缩
–noextract:结果文件压缩
-f –format:输入文件格式.支持bam,sam,fastq文件格式
-t –threads:线程数
-c –contaminants:制定污染序列。文件格式 name[tab]sequence
-a –adapters:指定接头序列。文件格式name[tab]sequence
-k –kmers:指定kmers长度(2-10bp,默认7bp)
-q –quiet: 安静模式
文档:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
结果解读
Per base sequence quality
Per base quality scores
- 横轴为位置,纵轴为百分比
- 正常测序数据为频率相近的四种碱基,无位置差异。表现在图上的话,四条线应该是平行且接近。
- 当任意位置A/T与G/C相差大于10% 警告,大于20% 错
Per base GC content
- N 代表测序仪不能识别的碱基,横轴代表read位置,纵轴代表占比
- 如果正常测序,红线应该是趋近与0的直线
- 当任意位置N占比大于5%, 警告;大于20%, 错
Sequence Length Distribution
- 横坐标为重复(duplication)的次数,纵坐标为reads的数目,以unique reads的总数作为100%
- 比如,当unique reads数大约为10%时,有两个重复;正常测序开始较高,后续趋近0%
Adapter Content

- 横坐标为read位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出
- 正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!