Sentieon软件UMI单分子标记处理模块发布,大幅提升准确度和速度

单分子标签技术(Unique Molecular Identifier, UMI)被广泛应用在极高灵敏度的NGS检测中,尤其是目前炙手可热的循环肿瘤DNA (ctDNA) 检测。ctDNA作为一种非侵入性的肿瘤生物标志物,以其极高的灵敏度,可用于癌症早筛早检,治疗反应的实时监控等。因此,大量的研究工作围绕ctDNA而展开。然而,由于传统NGS检测灵敏度受限于PCR和测序的错误率(~1%),必须通过UMI来保证ctDNA检测的高灵敏度和特异性。

然而,以fgbio为代表的UMI consensus软件使用的统计模型比较粗糙,对不同随机过程的统计模型缺少严谨的预估,反而依赖复杂的流程和用户经验参数设置来优化结果,因此影响了UMI consensus 结果的准确性,也限制了后续变异检测的灵敏度。另一方面,为了提高更低丰度变异检测的灵敏度,很多UMI应用已经将测序深度提高到了2万甚至5万,而为了检测更多癌症类型,panel覆盖基因数目也越来越多。因此,对应的生信流程需要处理的数据量也随之大幅增加,对UMI流程的执行效率提出了更高的要求。

为了解决上述的问题,Sentieon和客户反复调研之后,在2019年11月发布了UMI处理模块,旨在为业界提供优质、准确、高效的解决方案。Sentieon UMI处理流程极度精简,参数简单,运算高效,且依然坚持了Sentieon产品一贯的数学和工程的严谨。Sentieon UMI consensus 模块通过严谨的统计模型重构了建库和测序过程中的各类错误对结果的影响,通过机器学习自动计算样本数据的多维度参数,更加准确的执行合并同组序列。同时,Sentieon UMI流程最大限度的保留和充分利用了所有输入数据的信息,为后续变异检测提供了尽可能全面和准确的统计信息。

性能展示

我们将通过模拟数据和稀释样本数据来验证Sentieon UMI流程的准确性。首先,我们使用模拟数据来对比consensus molecule和原始read,检验consensus统计模型的准确性。然后,通过稀释样本来检验UMI流程对变异检测的影响。

模拟数据测试

首先,我们随机生成了1百万条DNA片段,片段长度从100到500bp不等。这些片段将是后续验证UMI consensus所对应的真值。然后,我们模拟了PCR扩增和测序两个步骤,生成了约2千万个序列,PCR扩增模拟了8个PCR循环(cycle),在每组扩增出的序列中随机选取3个序列,在此过程中按照指定的错误率随机引入了SNP和indel的错误。测序过程使用ART来模拟Hiseq2500的测序过程,通过测序仪真实的错误模型来生成测出序列。针对双端UMI,我们还引入了单链DNA错误。

模拟结果分别经过Sentieon和fgbio流程执行合并(consensus)处理。然后,我们将两个流程的处理结果consensus molecule和原始序列比对,以检验结果的正确性。

在我们的模拟数据测试中,我们分析了统计模型给出的质量值和实际的错误率之间的关系,针对所有模拟的情况,包括不同的单链、PCR和测序错误率。从上图统计中我们发现,我们给出的质量值高度准确的体现了这些统计过程的所引入的随机错误。这证明了Sentieon UMI不但在建立consensus序列上有极高的正确性,同时也能为每个consensus序列提供非常有价值的质量值。

常见问题

1. 对于特殊类型的UMI,比如说动态长度的UMI,Sentieon软件能处理吗p>

目前不能直接使用,但是UMI extract开源,用户可以自己修改满足不同的UMI需求。

2. 支持双端UMI吗p>

支持。软件会估算两条链不一致的错误率,并对结果做修正。

3. 流程中的统计学模型的参数需要提前训练吗p>

不需要,所有参数均直接从测试样本数据中学习。

4. 在去接头的步骤中,Sentieon UMI流程是如何处理的p>

Sentieon UMI并没有专门的去接头步骤,只是在处理有重叠的pair-end reads时,如果pair-end reads相互测通,则把超出的部分切除。

5. 在通过统计学模型计算出质量值以外,软件会保存原始的序列信息吗p>

会的,软件会把family size等原始信息写在BAM文件的XZ tag里,供用户查询或者进行个性化的进一步过滤。

6. 序列的过滤推荐在哪一步进行p>

Adapter trimming最好在UMI处理之前进行,在consensus之后软件会尽量保留所有的序列,以质量值区分可信度。所以如果后续变异检测软件能够读取并利用质量值,那么无需在变异检测之前进行过滤。如果质量值无法被利用,用户可以根据质量值和写在XZ tag里面的原始信息进行自行过滤。

视频介绍:sentieon软件_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11584 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年4月7日
下一篇 2021年4月7日

相关推荐