Nanopore 16S测序数据分析流程之blast/last

最近有朋友和我交流纳米孔16S测序数据的分析,发现真的没有从头完成过一次这方面的数据分析,然后发现这方面的资料也比较少,于是学习一下,和大家分享。坦白说,牛津纳米孔测序技术在16S多样性研究方面还是有些不足的,只能说勉强够用,主要应用场景是在一些现场快速检测方面,主要是病原菌这种。但是,相信随着测序准确度的提高和分析软件的改进,相信它的应用会越来越多。感谢互联 的便利和分享精神,今天的我们可以方便地获得测序的原始数据,并可以自由进行分析。
last方面的内容主要参考自IT帮一个兄弟的博客,之前提到过https://ithelp.ithome.com.tw/articles/10200625

1.软件和数据准备

处理牛津纳米孔的测序数据,首先当然要安装相关的专用软件了,基本上原厂出的,原厂品质,放心!还有就是minimap2和yacrd,用于去嵌合。数据来自一篇文章,文件不大,直接下载或者ascp下载均可。

2.数据预处理

基本上是质控的过程,先看下测序质量,当然纳米孔的质量还是有点低的,特别是手上下载的数据是低版本的测序芯处R9.4,未来的R10可以通过两个纳米孔串联提高到95%。接着就是去除测序的接头,获得真正的测序序列,是不是引物也应该切除是估计数据库里的序列也应该不包含引物,所以估计引物影响不大。然后,进行过滤,除去明显不符合要求的序列。

结果依然是类似于fastq质控 告的一个函数,不过统计指标少了几个,有两个把reads长度和质量分布放在一起的图不错。

3. last比对

————–我是分界线的结束———–

最后,如果顺利,就是结果了:

Taxonomy ReadsNumber ReadPercentage
266 Trichocoleus desertorum strain ATA4-8-CV2 1046 41.85674270
159 Neosynechococcus sphagnicola strain sy1 248 9.92396959
267 Tychonema bourrellyi strain CCAP 1459/11B 110 4.40176070
111 Kastovskya adunca strain ATA6-11-RM4 104 4.16166467
168 Okeania plumata strain FK12-27 74 2.96118447
120 Loriellopsis cavernicola strain LF-B5 53 2.12084834
40 Cephalothrix komarekiana CCIBt 3277 42 1.68067227
33 Caedimonas varicaedens strain 221 41 1.64065626
12 Aliterella antarctica strain CENA408 33 1.32052821
118 Limnoraphis robusta strain CCALA 966 31 1.24049620

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年4月2日
下一篇 2020年4月2日

相关推荐