研究背景
近年来,对有机反应工艺的自主优化以及反应结果的大数据集的生成或使用都受到了重大关注。然而,对于反应优化仍然没有明确的“最佳方法"。
2021年,Astex制药公司和剑桥大学的合作研究,最大限度地将预先存在的数据和自我优化算法结合在一起,发表了多任务优化算法(多任务贝叶斯优化,MTBO)。MTBO被视为“小数据"反应优化的最佳算法模型,当时该模型仅使用计算机模拟示例进行了演示。
图1. 使用已有数据在流动反应器中进行自我优化
欧洲连续流大咖,格拉茨大学连续流合成中心(CC FLOW)和制药研究中心工程股份有限公司(RCPE)的C.Oliver Kappe教授,用于真正的合成化学优化问题,在实验室中验证了该方法。如(图1)。
流动化学反应器通常用于一些危险化学反应的高传质、传热和批量稳定生产的需求,但它也能为科学研究提供平台。与传统方法相比,流动反应器较少的反应物料、快速筛选反应条件有其优势。
流动反应平台,可以对每个单独的实验条件进行设置,并且可实现自动化。使用液体处理器制备反应混合物也能够在优化分类变量(例如,溶剂和配体)得到充分的研究。这是标准优化方法非常难以处理的考量因素。
事实上,如果能使用现有的数据,例如开放Zenodo(由欧洲核子研究中心运作)反应数据库和存储库,计算机模拟就能实现这个目标。
本文作者首先利用公开的Suzuki偶合和Buchwald-Hartwig数据集,进行了计算机模拟演示,然后进行实验优化演示。
在计算机模拟的优化中,一个关键的发现是当存在多种不同的底物时就会生产更大的辅助数据集,MTBO算法似乎在更大的辅助数据集中运行得更好。这在Suzuki偶合案例中得到了很好的运用,当所有四个可用的数据集都用于辅助任务时,它提供了最佳的性能。
一般来说,人们会假设可用的数据越多,优化的效率就越高。因此,这自然而然地反映了一个科学家,尤其是工业界科学家多年来一直在努力解决的问题:我们如何有效地记录和利用过去实验的结果?阿斯利康、圣母大学和麻省理工学院的科学家最近发表的一篇论文也讨论了这个问题,特别是关于电子实验室笔记本(ELN),并确保包括负面数据也得到有效的使用。这将为未来的机器学习和人工智能提供有力的支持。
图2. 数据量的增加每个底物的优化时间相应减少
实验室演示的C-H活化反应在含有较高比例极性官能团的小片段上进行,这是常用的合成方法,意义重大。对于药物发现中的目标分子很适用。
尽管对不同反应性的底物来说,数据收集并不容易,但每个底物的辅助数据集的增长使优化速率提升。访问常用已公开的反应类型的实时数据集,可以减少对特定底物对实验的依赖,快速得到最佳工艺条件,为研究组带来巨大优势。
MTBO现已可供他人使用,但还在不断改进之中,不久我们将看到它巨大的潜力。改进包括,但不限于:
使用液滴流反应器等改进,以减少催化剂和原材料的消耗;
变量范畴的表示,目前是通过简单地分配“1"和“0"对应于每个分类变量(称为一个热变量编码、OHE)。其他选项,如主成分分析(PCA),可能有助于包括有关这些分类变量属性的信息;
反应物的描述符也可以用来优先考虑在辅助任务数据集中最相似反应伙伴的数据。
随着反应优化从经典方法演变,有机化学家将继续看到新的有效选项被添加到他们的优化工具箱中,使得该工具更加被广泛使用。
随着自优化的连续流反应器频繁使用,利用先前的知识和数据(例如以前的试验记录结果),结合机器学习和人工智能来加快反应过程的优化,这已成为一个重要的研究方向。
自优化流动反应器的高效率可以通过利用预先存在的多任务贝叶斯优化方法中的反应数据。
本文就是选取了Suzuki偶合和Buchwald-Hartwig实验数据来进行计算机模拟演示,这些结果可以指导像MTBO(多任务贝叶斯优化)这样的算法进行有效的实验优化演示。
什么是多任务贝叶斯优化?
多任务贝叶斯优化是一种优化算法,主要应用于机器学习和人工智能领域。它是一种基于贝叶斯统计的优化方法,通过同时考虑多个目标或任务,来找到优解。这种方法能够有效地处理多目标优化问题,特别是在目标之间存在一定的相关性时,可以大大提高优化的效率和准确性。
参考文献:ACS Cent. Sci. 2023, 9, 864−866