HiFi全基因组测序技术与实例|HiFi基因组组装软件推荐

HIFI技术的简介

HiFi reads(High fidelity reads)

  • 是Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列,一般采用CCS(Circular Consensus Sequencing)模式测序。在这种测序模式下,酶读长一般大于插入片段长度,因此酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFi reads。
  • 要在单次测序中得到更多的HiFi reads往往需要平衡测序的酶读长和插入片段的长度,插入片段太长会导致酶无法进行滚环测序,插入片段太短又牺牲了三代长读长测序的优势。因此HiFi模式测序对酶试剂和建库过程的均一性要求较高。

HiFi建库流程

PacBio SMRT测序原理

  • 聚合酶捕获文库DNA序列,锚定在零模波导孔底部
  • 4种不同荧光标记的dNTP随机进入零模波导孔底部
  • 荧光dNTP被激光照射,发出荧光,检测荧光
  • 荧光dNTP与DNA模板的碱基匹配,在酶的作用下合成一个碱基
  • 统计荧光信 存在时间长短,区分匹配碱基与游离碱基,获得DNA序列
  • 酶反应过程中,一方面使链延伸,另一方面使dNTP上的荧光基团脱落
  • 聚合反应持续进行,测序同时持续进行

以下为图示:

SMRT测序的两种模式

SMRT测序目前有CLR模式与CCS模式,从图片可以看出CLR是提高了序列长度但是没有兼顾准确度,而CCS模式的话既兼顾了长读长又有很好的准确度,我们通常将准确度大于99%(Q20)的read称为HiFi read

HiFI组装实例

首先我们可以看一下HIFI的应用,可以看出HIFI测序技术的出现,使得一些复杂有难度的植物基因组也可以通过测序得出较好的结果,下面主要针对最近的这几篇文章的思路入手,了解一下用与HiFi READ基因组组装的一些软件以及组装的大致流程

六倍体加州红杉基因组

PacBio的科学家利用HiFi测序在两周内完成了基因组高达27Gb的六倍体加州红杉基因组的组装,与以前使用其他技术的针叶树组装相比,使用 PacBio HiFi de novo 组装的加州红杉(Sequoia sempervirens)在3个C (Contiguity, Completeness, and Correctness) 的基因组组装质量方面实现了显着的性能改善。
第一列为PacBio HiFi组装结果只用了6天,相比而言第二列的ONT+short reads组装(也就是目前大多采用的三代+二代组装的策略)花费的时间减少了很多!由于加州红杉为裸子植物而BUSCO评价完整度的参考大多为被子植物所以这个评价的结果不算高也正常。

HiFiasm

Pub Date : 2020-08-03

可识别单倍型的纠错

Hifiasm会将所有的hifi reads读取到内存中进行all-vs-all比对并进行纠错。基于reads间的overlap信息,如果read上有一个碱基与其他碱基不同,并有至少3条reads支持,则认为它是SNP并保留,否则认为是错误并进行纠正。

组装图的构建

在校正之后,大多数错误被去除,同时杂合变异信息被保留。基于这些信息,Hifiasm构建了以reads为顶点、重叠区为边的定相string-graph。

组装序列的生成

如果没有其他数据,Hifiasm在输出序列时会任意选择每个气泡的一侧输出类似Falcon unzip和HiCanu的主要组装结果(primary contigs)。如果同时有父母本的测序数据,Hifiasm可以通过亲本特有的kmer在图上识别出来自父母本的序列,从而得到两套单倍体基因组。
当然HiFiasm文章中也提到了:

  • 与其他基于图形的汇编程序不同,HiFiasm致力于保持所有单倍型的连续性。
  • HiCanu只试图保持一个亲本单倍型的连续性,并且经常破坏另一个单倍型的连续性,当分离亲本单倍型时,这些突变点将导致单倍型分解的碎片—HiCanu没有充分利用HiFi Reads
  • Hifiasm针对HiFi特点而开发,在hifi数据的组装表现上较同类软件更为突出,在多个基因组上表现出了更高的准确性和组装的连续性。

文章知识点与官方知识档案匹配,可进一步学习相关知识CS入门技能树Linux入门初识Linux24810 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月27日
下一篇 2021年1月27日

相关推荐