软件概述
将基因组等序列文件,按长度为K的字符串进行切割、归类以及频数统计。
软件安装
软件版本:2.3.0
软件使用
可以直接查看帮助文档:
接下来以大肠杆菌为例,对Jellyfish的使用进一步熟悉。
需要注意的几个问题:
-
jellyfish的输入文件格式不能为压缩状态
-
的理解
(1)Kmer计数
对于-c参数和-s参数的描述:
-c:The counter field in the hash uses only 3 bits and the hash has at least 10 million entries.
-s:哈希表格的大小。当设置的哈希表格足够大,能够容纳所有的Kmer计数结果时,只有一个结果文件,但当哈希表格的entry数设置小了的话,就会有多个结果。Jellyfish 2.0版本已经会自动合并结果了。
(2)输出文本Kmer计数结果
默认情况下,Jellyfish的结果文件使用哈希来对结果进行保存,那么如何输出文本格式的计数结果呢/p>
1、生成fasta格式的计数结果
结果展示如下:
2、按列存储信息 & 以TAB作为分隔输出Kmer计数结果
结果展示如下:
(3)输出Kmer频数分布
(4)查询特定Kmer频数
查询的速度是相当快的,比count过程快了太多。
(5)统计Kmer计数结果
输出结果如下:
参考资料
[1] https://github.com/gmarcais/Jellyfish/releases/tag/v2.3.0
额外
-C,canonical是什么含义/h4>
这部分需要针对数据类型来分析 —— 只有对自己的数据有一个好的理解,做出的分析才是可信的。
对于fasta类型数据来说,这只是一条单链的DNA序列,本身就不存在的反向重复,因此在对其进行分析的时候,没有必要使用参数。
对于fastq类型数据来说,由于测序时将基因组DNA(当然也可以是RNA)打断之后,对2条链都进行了测序。
但是在进行基因组大小估计、选择亚基因组特异性Kmer等分析时,都是默认一条DNA序列的情况,因此在针对fastq类型的数据进行分析时,我们就需要加上参数。
基因组大小估计公式: G e n o m e S i z e = K n u m K d e p t h Genome Size = frac{Knum}{Kdepth} GenomeSize=KdepthKnum/span>
如上解释的参考资料:https://www.biostars.org/p/153170/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!