nextpolish安装_NextPolish软件正式发表,解决三代测序基因组组装准确度难题 | Bioinformatics…

近几年兴起的三代测序技术,具有读长长的特点,能够产生10~100kb甚至更长的序列,可有效解决二代测序的组装难题。三代Nanopore测序平台因其具有便携性、测序成本低等特点,已经在几个物种de novo测序中组装出高完整度的基因组,为动植物基因测序带来了很大的转机。

虽然拥有读长长等特点,但三代测序原始数据错误率相对较高(5-15%),利用常用基因组组装软件产生的基因组图谱仍可能含有较多的单碱基错误和小插入删除错误。因此,初步组装的基因组必须经过多次polish来纠正碱基错误。如果采用之前的算法和软件,这一过程需要较多的计算资源,从而耗费大量CPU时间和成本。

为解决三代测序,尤其是Nanopore测序数据处理算法和软件工具不够丰富和成熟的问题,北京希望组胡江团队历时约两年时间, 通过上百个基因组项目调试, 专门开发了NextPolish软件工具包,这是一款针对三代测序(尤其是Nanopore)基因组组装准确度不足问题的解决方案。 11月28日,生物信息学领域著名杂志 Bioinformatics 在线发表上述研究成果,文章题为“NextPolish:a fast and efficient genome polishing tool for long read assembly”。

图1. NextPolish算法和性能评估。A:K-mer 得分链算法示意图;B:K-mer计数模块;C,D,E为NextPolish和Pilon的性能比较。

通常,利用Pilon软件对基因组进行polish需要迭代3~4轮,而NextPolish可以在不需要额外迭代的情况下完成polish。 无论是拟南芥还是人类基因组, NextPolish完成2轮迭代的时间比Pilon进行4轮迭代约快10倍。 此外,NextPolish的单碱基错误校正性能比Pilon更好。

表1 NextPolish、Pilon和Racon的性能比较

nextpolish安装_NextPolish软件正式发表,解决三代测序基因组组装准确度难题 | Bioinformatics...

同时,研究团队基于人类1 染色体的模拟数据(短读长和长读长数据各50X)对NextPolish、Pilon和Racon的性能进行了比较(表1,分别迭代2轮、4轮、4轮)。数据显示,Pilon耗时484分钟,Racon耗时1122分钟,NextPolish仅用时21分钟就完成了polish,并且NextPolish在每100kb错配与插入缺失数,总错配和插入缺失数方面均优于Pilon和Racon。

综上所述,NextPolish可有效纠正长读长测序基因组组装中的序列错误。这款新工具由两个相互关联的模块组成,这些模块可对高质量短读长片段中的K-mers进行评分和计数,并对包含大量碱基错误的基因组进行修饰。通过对比已有的组装工具,NextPolish的纠正序列错误速度更快,校正精度更高。

目前,NextPolish免费开放源代码, https://github.com/Nextomics/NextPolish

拓展阅读

参考文献:

Jiang Hu, JunpengFan,Zongyi Sun, Shanlin Liu. NextPolish: a fast and efficient genome polishingtoolfor long read assembly.https://doi.org/10.1093/bioinformatics/btz891

相关资源:毅友汽修汽配管理软件12.9增强版.rar-交通其他资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月15日
下一篇 2020年11月15日

相关推荐