三代测序纠错软件汇总篇

三代测序纠错软件汇总篇

在之前推出的一篇微信中,已经介绍过了三代测序下机数据“三代全长转录组测序常见问题说明”。那么我们拿到数据后是如何通过不同的软件、流程来处理,从而得到我们想要的高质量数据呢三代测序技术的发展,各种利用 PacBio 长序列来做大型基因组的 de novo 组装和改进以及在数据纠错方面的软件如雨后春笋般层出不穷,今天就和大家一起盘点一下在数据纠错方面的相关软件。

 

 

三代单分子实时测序技术超长读长,无需 PCR 扩增,完美跨越高 GC 和高重复区域,可直接获得全长转录本。但是单碱基错误率较高,主要类型为 insertion 和 deletion,不过发生错误的碱基是随机分布的,可通过算法来进行校正。

 

三代 PacBio 测序序列纠错:

 

 

 

 

 

 

 

PacBioToCA 是 PBcR 里面的一种自纠算法,专门用来进行三代的自纠工作,纠错的核心本质就是多重序列比对,为了加快比对速度使用了 MHAP 算法 (MinHash),通过将短序列比对到长序列上来计算一个高度准确混合 consensus 序列:提高了序列的准确度 (80%到99.9%)。

 

图1  PacBioToCA 纠错原理

 

 

 

     CCS[2]       

CCS 是一个校正的过程,由三代测序原理可知,转录本可以在 ZMW (零模波导孔) 中循环测序,循环一圈,便可以将转录本的正链,互补链各测一遍;循环两圈,便可以将转录本的正链,互补链各测两遍。因为 SMRT 的序列错误率是均匀分布的 (没有所谓的GC区错误率更高),所以 ZMW 中测序得到的重复序列是可以自身进行校正的。

 

 

图2  CCS 纠错原理

 

 

 Quiver& Arrow[3] 

Quiver 是一种基于条件随机场法的传统共识模型,能使基因组装的准确度接近 Q60 (每百万个基数中有一个错误),Quirver 已经证明很难训练和开发,所以正在逐步淘汰它,以支持新的模式。Arrow 是一种改进的共识模型,它基于一种更直接的隐马尔可夫模型方法。现在 Quiver 支持 PacBio RS 数据,Arrow 支持采用 P6-C4 试剂的 PacBio Sequel 和 PacBio RS 数据。

 

Sparc & Pbdagcon[4]

 

一种基于有向无环图编码多序列比对的序列一致性算法。它使用来自 blasr 的对齐信息将序列比对到“主链”序列。基于底层对齐有向无环图 (DAG),它将能够使用从读到的新信息来发现短序列和“主链”序列之间的差异,然后将动态规划过程应用到 DAG 中,以此作为一致的最佳碱基序列。新的一致性可以作为一种新的主链序列来迭代地提高一致性。当代码被开发用于处理 PacBio 原始序列数据,该算法可用于一般共识的目的。目前,它只以 FASTA 输入。对于较短的读取序列,可能需要调整 blasr 对齐参数得到正确对齐的字符串。最初的图形算法依赖一个纯 python 实现,然后用 cython 来加快速度。

 

 

    Proovread[5]     

 

通过迭代短 read consensus 来进行大规模的高准确度的 PacBio 纠错。

 

Proovread 软件原理实现分为三步[6]:

 

具有以下优势:

 

图3 Proovread纠错原理

 

     LoRDEC[7]     

 

LoRDEC是一种纠正三代测序长读长序列读取错误的程序。

LoRDEC软件原理实现分为三步[8]:

 

 

因为构图和纠错都能使用多线程,所以运行速度快,用过滤之后的k-mer构建DBG图,内存空间较小。

 

独特之处:

 

 

 

图4 LoRDEC纠错原理

 

     LSC[9]       
 

 

LSC 是一个长读取序列错误校正工具。该方法具有校正速度快、灵敏度高、精度高等优点。LSC 是长读长序列纠错算法的纯实现。长读长序列和高质量的短序列都是同步器压缩的,然后将压缩后的短序列通过 Bowtie 2 比对到长序列上,最后短读的 conensus 序列将替换长读中比对上的区域。

 

LSC 软件原理实现分为三步[10]:

 

 

 

图5 LSC纠错原理
 

 

    Ectools[11,12]      

 

一种新的混合纠错算法,长的PacBio测序序列使用预组装的Illumina序列进行误差修正。输入的短读序列集作为校正的主链。与短序列相比,校正PacBio序列到预组装contigs,能提供更多的子序列上下对齐。

 

图6  Ectools同其他纠错软件比较

 

 

接下来我们也会以小专题形式继续推送三代测序数据分析相关软件,例如:可变剪切分析、APA预测、CDS预测、LncRNA分析等等分析内容,敬请关注哦~

 

 

 

参考资料:
[1] http://tiramisutes.github.io/2016/08/27/PBcR.html
[2] https://circleci.com/gh/PacificBiosciences/GenomicCon- sensus
[3] https://github.com/PacificBiosciences/GenomicConse- nsus
[4] https://github.com/PacificBiosciences/pbdagcon
[5] https://github.com/BioInf-Wuerzburg/proovread
[6] Hackl T, Hedrich R, Schultz J, et al. proovread: large-scale high-accuracy PacBio correction through iterative short read consensus[J]. Bioinformatics, 2014, 30(21): 3004-3011.
[7] http://www.atgc-montpellier.fr/lordec/
[8] Salmela L, Rivals E. LoRDEC: accurate and efficient long read error correction[J]. Bioinformatics, 2014, 30(24): 3506-3514.
[9] https://www.healthcare.uiowa.edu/labs/au/LSC/
[10] Au KF, Underwood JG, Lee L, et al. Improving PacBio long read accuracy by short read alignment[J].PloS one, 2012, 7(10): e46679.
[11] http://schatzlab.cshl.edu/data/ectools/
[12] https://github.com/jgurtowski/ectools

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月22日
下一篇 2019年8月22日

相关推荐