薛定谔公司和UCSF的研究者通过2个靶点的回顾性实验及1个靶点的盲测,展现了主动学习技术降低对接成本的强大能力,仅略损失hits召回率,使超大规模虚筛平民化。
背景
随着按需合成的化合物库的出现,用于虚拟筛选的可购买化合物的数量近年来呈爆炸式增长,已超过了 10 亿种化合物。例如,ZINC 库在 2016 年 4 月包含大约 1 亿个化合物,2019 年 7 月为 5 亿个,2020 年 1 月为 10 亿个,以此推算,未来5年可购买化合物将超过百亿。用传统的基于对接的虚拟筛选方式来筛选这类超大虚拟库的成本水涨船高。最近的两个相关研究无论是使用OpenEye的Orion云计算平台还是VirtualFlow进行超大规模筛选都需要耗费大量的计算资源。这类对接虚筛在文献中十分少见也侧面反映了此方式所需成本高昂。主动学习已经在药物发现领域有许多成功的案例,包括对接及自由能计算。但至今仍缺少基于真实的超大规模虚筛及测活数据来对比传统对接与主动学习辅助对接的命中率及多样性的研究,而这正是今天这篇文章所关注的。
主动学习的整体流程
1.AmpC:99,459,562个分子;
2.DRD4:138,312,677个分子;
3.MT1:150,927,915个分子。
值得一提的是,这三个靶点分别倾向于结合阴离子、阳离子和中心分子。
对接软件则使用了DOCK3.7 和 Glide SP,主动学习流程通过Schr?dinger Suite 中提供的 AutoQSAR/DeepChem (AQ/DC) 包开发,机器学习模型包括GCNN和ECFP-RF。AQ/DC可以自动使用5折CV进行模型超参数优化,并最终给出15个模型进行集成,集成模型使用所有模型预测平均值作为最终预测值,标准差作为预测不确定性的指标。用户可以通过设定搜索时间控制AQ/DC中模型超参数优化覆盖的参数空间大小及耗费的时间。Glide使用LigPrep进行配体准备,其中Epik的pH参数设置为7.0 ± 1.0,立体异构最大数目设置为16,其他均为默认值。DOCK3.7使用ZINC15中的配体准备流程来优化。
随机抽取虚拟库中部分分子,进行对接选取打分头部的分子,然后计算整个虚拟库与此头部分子的相似性并用该指标作为最终打分从高到低进行筛选,此为零模型(Null Model)。构建零模型的目的在于评估主动学习技术的排序能力是否仅仅是因为学习了结构间的相似性,还是来自于学习到的对接打分的知识。零模型使用Schr?dinger Suite 中提供的 GPU 加速 FPsimGPU进行计算,该软件对计算过程进行了一定的近似。
AQ/DC 筛选召回虚拟hits和实验确证hits的能力
如图2展示了模型打分排序前x%分子中对应的hits覆盖率(召回率),图中模型均使用虚拟库0.1%大小的随机子集进行训练,可以看出AQ/DC模型对hits的召回能力很强。相对于 AmpC,基于 Glide SP 的模型表现比DOCK差,原因可能是这次筛选中DOCK的对接参数针对AmpC进行了优化,而Glide没有。
(1)对接化合物训练集的大小:
(2)主动学习方案的迭代过程中采样方式对模型效果的影响:
分别对4种策略进行了测试a.ML 打分前 0.1%;b. ML打分不确定性的前 0.1%; c.ML 得分前 10% 中随机抽取得到0.1%;d. ML 得分前 5% 的化合物中不确定性的前 0.1%。其中b方案反而降低了召回率。令人惊讶的是,d方案在效果与对接成本中取得了最好的平衡。
主动学习方法可以节省近 30 万次对接计算,这些结论与是否使用 DOCK 或 Glide SP 无关。无论如何,拥有更大的数据集(0.5%)和使用主动学习来优化模型(主动学习 0.1% + 0.1%)都优于较小训练集的模型(图3)。在筛选的头部部分,性能的提升尤为明显。
AQ/DC打分头部分子与对接命中分子的
化学多样性对比
计算成本的比较
结论
参考文献
Ying Yang, Kun Yao, Matthew P. Repasky, Karl Leswing, Robert Abel, Brian K. Shoichet, and Steven V. Jerome Journal of Chemical Theory and Computation 2021 17 (11), 7106-7119
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!