Science | 化学合成自动智能化–ChemPU中化学合成文献数据库的数字化和验证

导读

——JSY

尽管潜力巨大,但合成化学的自动化在过去几十年中才取得了渐进式的进步。研究人员提供了一个包含 100 个分子的自动可执行化学反应数据库,这些分子代表了当代有机合成中发现的反应范围。这些反应包括过渡金属催化的偶联反应、杂环形成、官能团相互转化和多组分反应。反应的化学反应代码或 χDLs 已存储在数据库中,用于版本控制、验证、协作和数据挖掘。这些合成中,已下载数据库中的 50 多个条目,并在七个模块化 ChemPU 中自动运行,其产率和纯度与专业化学家所达到的相当。

要复现一个已知的化学反应,必须从文献或数据库中获得协议,这样才能在实验室中手动运行它。然而,并不是所有的文献或数据库条目都能被轻易复现。这不仅是合成新分子的障碍,也是为机器学习积累高质量数据的障碍,而且由于没有公开的程序编码标准,也没有广泛 告和纠正失败实验的方法,这就更加严重了。一个能够明确捕捉和编码化学合成协议的方法,供一个自动化系统使用,并具有类似于软件的版本控制能力和记录失败的实验,将改变这个领域。目前,有机合成需要密集的、高度熟练的劳动力,一个典型的合成可能需要多个复杂的单元操作,这些操作很难明确编码。这是因为所需的隐性知识往往取决于上下文,导致发表的文献中存在模糊不清的地方,限制了可重复性、自动化或数据挖掘。这些限制在一些特定领域已经被克服,如寡肽、寡糖和寡核苷酸化学,近年来在更广泛的化学反应自动化方面也取得了很大进展。然而,大多数自动化合成化学平台仍然是针对特定任务的,或者是代表手工工作流程中的自动化岛屿,但即使这些平台也有定制的指令集,它们之间或与文献之间没有简单的语义联系。为了充分挖掘化学合成中自动化的潜力,确保程序的可重复性,需要在两个方面取得进展。首先,需要一个真正通用的自动化平台,可以执行所有的单元操作;其次,一个标准化的、精确的语法来描述这些化学过程,对于可靠地捕捉特定化学过程的所有关键细节至关重要。这样的代码也必须独立于自动化所采用的硬件类型,从而被编译成可以在任何兼容的硬件系统上完美地工作。

用χDL表达一个化学过程并不能立即解决原始文献说明中存在的信息缺失或含糊不清的问题,但它确实提供了一个明确的途径来关闭它。要做到这一点,可能仍然需要一些工艺开发和迭代,以使产量和纯度最大化。在对来自ChemPU执行χDL代码的目标化合物进行适当的分析[NMR、LC-MS或GS-MS后,对产品的质量和纯度做出评估。如有必要,对χDL进行改进,以提高产率和纯度,然后再次执行。χDL的主要优点是,一旦一个成功的工艺被编码,所有后来的用户在兼容的硬件上执行该代码,都可以得到相同的结果,而不需要再进行工艺开发。在合格的硬件上执行流程所需的所有关键知识,包括有形的和无形的,现在都在χDL中了。在这个阶段,该协议可以作为一个经过验证的工艺添加到数据库中,并由目标产品的全部特征和工艺开发历史作支持。包含工艺发展历史是Chemify数据库的一个突出特点;通过显示不太成功的实验结果,并与最终的成功运行进行对比,工艺的关键方面被突出,并可以被量化。

Chemify数据库持久地保存了χDL程序、实验结果和相关分析的信息。它是一个本地托管的PostgreSQL数据库服务器,包含上述所有经过验证的χDL脚本,可以通过ChemIDE(基于 络的χDL开发环境)或使用基于Python 3的API进行自动数据库查询来访问。此外,为了满足终端用户的体验,ChemIDE配备了显示每个实验的特征参数,如产品规模、产率、状态(翻译、验证、失败)和过程持续时间。用户可以提交、搜索、下载和复制可信的合成。该数据库包含最终验证的合成脚本以及以前的开发版本,这些脚本可能在不同程度上起作用,提供的所需产品产量较低,纯度不足,或者由于对自动化的必要工艺参数描述不足或不正确而导致工艺失败。将失败的或产量较低的实验与某一特定反应或反应类别的成功尝试进行比较,可以揭示出工艺的关键方面。此外,数据库还包含已经翻译过但尚未在合适的自动化平台上执行的χDL条目。对未验证的χDL文件感兴趣的用户可以访问这些文件,并可以选择验证它们。这里 告的χDL程序已经在ChemPU上进行了验证,ChemPU是一个化学自动化平台,模拟台式化学家的手工操作。虽然操作上简单直观,但严格的实施意味着该平台作为一个有限状态机运行(图2)。它可以处于有限数量的状态之一,并根据明确定义的操作从一个状态过渡到另一个状态。这些操作由程序–χDL合成协议–以及传感器反馈[如温度、电导率、压力或紫外线(UV)吸收率]定义。χDL合成指令与状态转换或 “单元操作 “的直接映射,突出了χDL合成过程的严格抽象性。此外,χDL程序中对状态转换的明确定义对于确保χDL合成的可重复性至关重要,包括在ChemPU的不同布局和可能完全不同的合格硬件设置上。

ChemPU状态机由三个逻辑部分组成:物理输入或输出(I/O)、数字I/O和处理单元。处理单元可以根据ChemPU的初始条件或物理和数字I/O的组合,即由传感器定义的当前条件、过程变量和正在执行的χDL步骤,在几种状态中转换。根据调度器,χDL步骤的执行会产生一个新的状态,在以后的步骤中采取行动,并导致物理I/O的物理变化,例如,试剂位置的变化、温度的变化、液-液分离中的相界,或色谱过程中的洗脱峰。调度器求助于硬件的图形表示来解释χDL脚本并协调硬件的协同任务。抽象层定义了作为节点的硬件设备的位置和连接,并包含每个节点的具体信息,如有关设备的IP地址和温度限制。图文件连同χDL文件可以编译成一个执行文件,该文件是针对平台的。将化学过程的描述严格分离到χDL文件中,将硬件平台的描述严格分离到图形文件中,可以确保χDL文件保持与平台无关。这也使得平台的设计方式和具体的物理布局具有灵活性。这意味着每个χDL都可以被版本化和编译以在任何合适的平台上运行,而且ChemPU系统具有高度的模块化、灵活性和可扩展性(图3)。

通过反映批量合成化学的单元操作,ChemPU代表了一个通用的、可编程的硬件平台,用于执行之前展示的合成化学。由于该平台的模块化性质,它可以随时扩展,各个模块通过液体处理主干 连接,类似于传统计算机的总线。与液体处理主干 (由泵和阀门组成)的连接是通过单片柔性管进行的,这使得模块可以很容易地被拆卸下来进行维护或重新安排以优化操作。液体处理主干由一系列注射器泵和阀门组成。一个典型的主干系统由六台组成;然而,主干系统可以随时收缩或扩展,以适应所需化学过程的要求。阀门有六个位置,每个有七个端口。液体处理主干 中的每个阀门都与一个泵、其最近的相邻阀门和一个废物容器相连,并且可以与三到四个不同的试剂、溶剂或硬件模块相连。各个模块与主干 的连接以抽象的方式用上述图形来表示。主干 的清洁是通过自动清洁程序进行的,该程序可由用户定义,以说明不同程序后存在的不同类型的污染。除了液体处理主干,用于执行此处 告的合成的ChemPU系统还包括一个反应模块,由一个通过以太 -串行转换器控制的标准热板、一个用于液-液萃取的分离器,配备了一个用于搅拌的顶置搅拌器,以及一个用于相界检测的电导率传感器;它还包括一个用于产品沉淀和重结晶的夹套过滤器、一些试剂瓶、一个旋转蒸发器,以及一个可选的色谱系统。

ChemPU的文献程序进行验证

通过chemputation的抽象,χDL语言和ChemPU平台,研究人员着手翻译有机化学工具箱中的典型反应并使之自动化。有机化学包含了种类繁多的转化过程。尽管种类繁多,但大多数反应都可以用少于10个类别进行简明的分类。一些研究已经分析了不同领域的反应频率,如药物化学、工艺化学和全合成。在合成中使用的反应类别的分布有一些明显的差异,这取决于主要目标;例如,药物化学研究人员可能更喜欢过渡金属催化的C-C键形成反应,这可以方便地产生大量的相关化合物用于生物检测,而现代全合成更依赖于精心设计的成环反应,以尽可能少的步骤组装复杂的分子骨架。

ChemPU上各种反应的自动化

该系统对湿气敏感或高活性的试剂具有耐受性,如铜介导的氨基甲酸酯的炔化反应中使用的双酰胺钾(KHMDS),甾体雌酮的Friedel-Crafts烷基化反应中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton试剂。此外,需要惰性气氛的反应也在该平台上成功执行,包括在钯催化下进行对映选择性卡罗尔重排。ChemPU平台上有效地执行了高达90毫摩尔规模的程序。方便的是,一旦产生了χDL脚本,一个特定的反应可以在可用的容器尺寸和化学过程的限制下放大或缩小。该平台上还成功执行了生成多组分和级联反应产生的更复杂产品的χDL程序。

扩大基底范围

通过使用ChemPU生成化合物库,可以扩大验证过的χDL程序的底物范围。一个特别有吸引力的前景是利用经过验证的χDL程序来构建用于生物筛选的大型化合物库。这样的化合物库可以很方便地通过改变起始材料来获得,而不需要对合成脚本进行重大修改;也就是说,一旦建立了一个程序,它就可以作为一个一般程序应用于许多不同的底物,只需要改变关键参数,如底物、反应溶剂和反应时间。为了做到这一点,研究人员在ChemPU上同时执行多个或 “多线程 “反应,使用来自两个不同的异氰酸酯和两个醛的反应物组合,得到四个结构相关的α-氨基酰胺产品。进一步扩大所使用的反应物集将迅速扩大生成的产品数量,并允许迅速生成更大的库。

ChemPU合成的可重复性

为了检查执行策划的χDL程序的一致性和可靠性,研究人员着手在ChemPU平台上多次重复相同的反应方案。丙二酸酯的烷基化被选为可重复性研究的合适反应,因为准确的温度控制和添加速率是该过程成功的关键。在最初的工艺开发后,获得了经过验证的χDL程序脚本,并在12次尝试运行中成功复制了10次反应协议。两次失败是由于在液-液分离过程中相界测定不正确造成的;产品本可以通过手动重启系统来恢复,但这里没有这样做。最重要的是,经过策划的χDL程序可靠地提供了产品,其产率和纯度都很一致。加上生成化合物库的能力,ChemPU可用于自动生成同一材料的多个批次或在初始协议建立后用不同底物重复同一反应的高度重复性工作。

ChemPU上进行全自动纯化

对反应中的产物化合物进行色谱分离是中小型有机合成的首选纯化方法。许多市售的色谱系统可以帮助实验室的化学家进行色谱分离。然而,这些系统仍然需要大量的用户互动。例如,粗制材料必须手工装入色谱柱,产品馏分必须手工识别,从馏分瓶中洗出,然后合并。此外,这些商业系统需要用户在几个不同的阶段进行互动,从而将化学家与实验室捆绑在一起,即使只是把样品装到柱子上这样的琐碎任务。为了将Buchi Pure C-815色谱系统与ChemPU整合在一起,研究人员建造了两个辅助硬件单元:一个允许在系统上预装不同色谱柱的色谱柱转盘和一个馏分托盘的扩展。后者允许ChemPU回收产品馏分。第一个具有挑战性的自动化操作是将样品加载到柱子上。基于实验室的化学家通常会在干式装载和液体注入样品之间做出选择。研究人员的目标是实施液体注射法,这与ChemPU的液体处理主干很好地结合在一起;此外,液体注射的样品装载方法需要很少的过程开发,只需要确定一个合适的溶剂混合物和体积来溶解粗制材料。正相色谱全自动化的第二个挑战是如何可靠地选择产品峰。通常情况下,化学家需要在色谱分离后通过薄层色谱、质谱或核磁共振分析各个馏分。对于ChemPU集成的模块,我们考虑了几个备选方案。我们发现,考虑洗脱馏分的紫外/可见光反应或弹性光散射检测器的信 ,并在指定的信 轨迹下选择具有最大曲线下面积的峰,是可靠性和灵活性的最佳权衡;对于一个给定的性能良好的反应,可以正确识别产物峰,而不考虑确切的保留时间。此外,这种方法不依赖于更复杂的产物鉴定,如质谱或核磁共振。

然后ChemPU控制器进行峰值检测并触发色谱机的馏分收集机制。控制器还跟踪馏分瓶的填充水平和各种运行参数,如背压积聚、溶剂蒸汽水平、梯度溶剂和溶剂废液桶的溶剂水平。如果这些参数中的任何一个超过了规定的阈值,就会启动一个适当的错误处理程序,以可控的方式暂停色谱分离。当分离运行完成后,产品峰被识别并转移到下一个模块。粗制材料通常从旋转蒸发仪转移到色谱模块,然后将纯化的产品从色谱模块转移回旋转蒸发仪,因此旋转蒸发仪烧瓶需要在两者之间进行清洗。因此,已经实现了对纯化产品的目标容器的可选清洗程序,并且可以在色谱分离过程中进行。综合色谱分离法被用于三个反应。这些色谱分离的过程已经被χDL记录下来,以简明易懂的方式说明了每一个细微的关键细节。因此,在另一个ChemPU或同等的系统上,甚至用市面上的色谱机手动复制色谱分离是很容易的。

Outlook

研究人员已经展示了如何将化学合成文献轻松转换为通用的化学代码,可以在任何能够进行化学合成的机器人上运行;这方面的唯一要求是一个批量反应器、一个分离器、蒸发器和纯化系统。这意味着,潜在的许多不同的机器人方法将能够使用相同的χDL代码,产生相同的结果。χDL Chemify数据库的使用不仅有助于复制已发表的程序,而且还为 区提供了丰富的验证数据,可用于最先进的机器学习,以实现反应优化、合成路线规划、提高安全性和减少合成的环境影响,同时大大减少化学家重复著名程序的劳动。

参考资料

Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin

DOI:10.1126/science.abo0058

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树首页概览11302 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年6月6日
下一篇 2022年6月6日

相关推荐