GB:香港城市大学孙燕妮组发表高准确度病毒株识别工具VirStrain

图1可知,虽然右边每个k-mer都不是unique的,但是,这些k-mer的组合对于每条序列来说,却是unique的,该信息完全可以被用于菌株识别。所以,为了从菌株基因组中找到这些unique k-mer组合,我们开发了一种全新的贪婪覆盖算法,可从菌株基因组的多比对结果中提取到每个菌株独特的SNV位点组合,进而获得这些unique k-mer组合

在这项工作中,我们开发了VirStrain,用于从二代测序数据中快速且准确地识别可能存在的病毒菌株及预测其相对丰度。VirStrain通过利用新的特征: unique k-mer组合,以及利用该特征进行菌株识别的迭代菌株搜索算法,提升了病毒菌株识别的准确度与分辨率。此外,VirStrain是一款不依赖于序列组装的工具,所以,当因数据质量过差或测序深度太低而无法组装出完整的病毒菌株基因组时,用户依然可以使用VirStrain来识别样本中可能存在的菌株。VirStrain的输出包含两部分,一部分是文本格式的 告,包含了识别到的病毒菌株,及其对应的相对丰度,元数据等。另一部分则是可交互的Html 页,主要显示每个识别到的菌株的基因组位点覆盖度

结果

VirStrain在模拟数据集上的表现

Performance on the simulated datasets

在该实验中,我们主要比较了VirStrain与其它流行的菌株识别工具 (Kraken2、Krakenuniq、Centrifuge、Pathoscope2、Sigma) 及病毒单倍型重构工具 (ShoRAH、PredictHaplo、aBayesQR、CliqueSNV、HaROLD、TenSQR) 在三种病毒 (SARS-CoV-2、H1N1、HIV) 的模拟数据集上的表现。这三种病毒的菌株基因组均从公共数据库下载,并输入到所有的菌株识别工具用以建立参考数据库。这里用到的模拟数据分成两种类型,一种是只包含一株菌株,测序深度为100X的单菌株数据,另一种是包含两株菌株的多菌株数据,而多菌株数据中的两株菌是按照测序深度100X:10X模拟生成的。对于这三种病毒,每种类型的模拟数据都包含100组,所以总共有10032=600组模拟数据。为了确保公平性,每个模拟数据中的菌株,均存在于所有工具的参考数据库中。对于菌株识别工具而言,我们主要测试其是否能够从模拟数据中识别到正确的菌株。而对病毒单倍型重构工具而言,我们主要测试其重构的菌株是否和数据库中的正确菌株最为相似,如果是,则视为正确的识别,反之则是错误的识别。在这里,我们使用准确率 (Accuracy)
作为主要的评估指标。准确率表示有多少个菌株被正确的识别。

图2所示,VirStrain在所有的测试数据集上都有非常高的准确率。尤其是在SARS-CoV-2的多菌株模拟数据集上,VirStrain的准确率比第二名的Sigma高出了40%,足以凸显VirStrain在区分高度相似菌株上的优势。对于这三种病毒,我们不难发现,大部分工具对于HIV的模拟数据都有较好的表现,而在SARS-CoV-2的模拟数据上表现很差。这是因为三种病毒具有不同的菌株序列相似性。HIV菌株间的相似度相对较低,故更容易识别。SARS-CoV-2的菌株之间则普遍有相当高的序列相似度。而对于H1N1,则是部分菌株极为相似但部分菌株差异较大

图2 十二种工具在模拟数据集上株识别准确率

100 个模拟 SARS-CoV-2 双菌株数据集的预测丰度分布气泡图。每个圆圈的中心代表一个工具输出的两种菌株的相对丰度。当一个工具在多个数据集上产生相同的丰度分布时,我们使用一个圆圈表示相同的输出,其大小代表这些数据集的数量。“Truth”是指每个数据集中两个菌株的真实相对丰度,通过标准化测序深度(100X 和 10X)计算得出。它的圆圈包含 100 个数据集(样本)。许多圆的中心 x 坐标为 0,这意味着这些工具仅输出一个菌株。

VirStrain可以检测新型毒株的最近亲属

VirStrain detects the closest relative for novel strains

病毒的突变是非常迅速的,因此,很容易诞生之前从未有过的新型菌株。对于新型菌株,由于其参考基因组不在已有的参考数据库中,所以当使用菌株识别工具进行识别时,我们期望其能找到数据库中与新型菌株最为相似的菌株,这种菌株我们称之为最近亲属 (closest relative)。为了测试不同工具在检测最近亲属上的性能,我们挑选了53株所有工具都能正确识别的SARS-CoV-2菌株,并基于这些菌株的原始基因组模拟了具有5、7、9、11、13个随机点突变的突变基因组,我们将这些新获得的突变基因组标记为M5、M7、M9、M11、M13。最终,基于这些不存在于参考数据库中的突变基因组,我们生成了53 5=265组单菌株模拟数据集,再加上包含原始菌株 (标记为Raw) 的53组单菌株模拟数据集,该实验总共包含265+53=318组模拟数据。对于每个突变基因组,我们使用了MegaBLAST来搜索参考数据库中与之最为相似的菌株,并把该菌株视作其最近亲属。不同菌株识别工具在该数据集上检测最近亲属的准确率如*图4所示。

图4 五种工具在318组模拟数据集中检测最近亲属的准确率

Sim_single_strain 和 Sim_multiple_strain 分别代表模拟的单菌株和多菌株数据集。对于真实数据,识别结果用 Y 和 N 表示,其中 Y 表示正确识别,N 表示错误识别。由于Sigma运行时间较长,没有识别结果。

VirStrain用于检测真实数据中的SARS-CoV-2菌株

VirStrain detects SARS-CoV-2 strains from real sequencing data

图6 VirStrain在32个真实SARS-CoV-2测序数据中的毒株识别结果

原始研究中 告的丰度(简称“ 告”)与5个工具预测的丰度之间的比较。Strain1 属于进化枝 20C,strain2 属于由 nextstrain 定义的进化枝 20B。根据最初的研究,strain1和strain2之间只有8个突变。由于内存使用,TenSQR无法分析“Sample2”,所以丰度为“0%”。类似地,aBayesQR在使用8个线程分析Sample2超过7天后终止,所以丰度也是“0%”

VirStrain从已知组成的测序数据中检测出5株HIV

VirStrain identifies 5 strains from HIV mock data

该实验中,我们将VirStrain应用于一个已知组成的真实测序数据中。该数据包含五种不同的HIV菌株 (JRCSF、89.6、NL43、YU2和HXB2) 并且每种菌株的相对丰度都各不相同。识别结果如图8所示,VirStrain识别到了所有的HIV菌株且预测的相对丰度非常接近真实答案。该实验结果表明VirStrain在样本中存在超过两株菌株的情况下,依然有较好表现

图8 VirStrain在HIV真实数据中预测的毒株丰度

表中的“-”表示该菌株未被识别,因此丰度未知。

紧接着,我们又使用了10组已知组成的HCMV真实数据测试了VirStrain的性能。这十组数据是由不同HCMV菌株按照不同比例混合然后测序获得的。比如图10中的“TA-1-1”表示该数据是由TB40/E (T) 和AD169 (A) 两种菌株按照1:1的比例混合测序所得。由于HaROLD在其它研究中也被用于重构HCMV菌株基因组,所以该实验中我们将VirStrain与HaROLD进行了比较。

图10 VirStrain和HaROLD在10个HCMV真实数据中的毒株识别结果

左侧为每个家庭母亲母乳 (BM),宫颈 (CV) 与婴儿血斑 (BS) 不同时间点HCMV菌株基因型丰度变化,右侧为每个家庭中所识别到的HCMV菌株的进化树。对于同一家庭中识别到的菌株,颜色相同则代表为同一基因型。树中显示的值表示自举值。使用 iTOL 生成系统发育树的可视化。

讨论

在这项工作中,我们提出了VirStrain,通过使用新发明的贪婪覆盖算法,VirStrain可从毒株基因组的多比对结果中提取一种新的特征:unique k-mer组合,再结合利用该特征的迭代毒株搜索算法,VirStrain能够从二代测序数据中精准且高效地识别高度相似的病毒株并预测其相对丰度。在大量模拟及真实数据实验中,VirStrain都比现有的菌株识别工具或病毒单倍型重构工具有更高的准确率。尤其是在对高度相似且丰度较低的多菌株识别上,VirStrain相比第二好的工具提升了40%的准确率。对于不在参考数据库中的新型菌株,VirStrain仍能够返回参考数据库中与之最为相似的最近亲属。此外,VirStrain在计算上还十分高效,分析数据量为19.5G的宏基因组数据,仅需不到4分钟。综上所述,该工具可为流行病学研究,病毒多菌株感染检测,精准用药等方面提供十分有价值的信息。我们的下一步工作,是实现 页版VirStrain,使得没有编程背景的用户也能十分轻松的使用VirStrain进行菌株识别。此外,我们也开发了针对细菌的菌株组成分析工具StrainScan,欢迎访问https://doi.org/10.1101/2022.01.26.477962了解详情

Reference

Herui Liao, Dehan Cai & Yanni Sun. (2022). VirStrain: a strain identification tool for RNA viruses. Genome Biology 23, 38, doi: https://doi.org/10.1186/s13059-022-02609-x

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

ed626df068974b5d3868bfaec036c17a.png

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11206 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月4日
下一篇 2022年1月4日

相关推荐