前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ACS Cent. Sci. | 为构建化学反应性模型而设计数据集

ACS Cent. Sci. | 为构建化学反应性模型而设计数据集

作者头像
DrugAI
发布2024-01-11 14:06:51
2270
发布2024-01-11 14:06:51
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是来自Connor W. Coley团队的一篇论文。模型可以将我们对化学反应性的理解具体化,并在新合成过程的发展中发挥有用的作用。例如,它们可以用来评估假设的反应条件或在计算机中模拟基质的耐受性。作者认为或许最决定性的因素是训练数据的组成,以及这些数据是否足够训练出一个能够在整个关注领域内做出准确预测的模型。在这里,作者讨论了如何设计反应数据集以促进数据驱动的建模,并强调训练集的多样性和模型的泛化能力依赖于分子或反应表征的选择。

在有机化学领域,数据驱动建模的历史几乎可以追溯到一个世纪以前。自那时起,研究者们探索了各种方法,用从线性自由能关系(LFERs)到多元线性回归再到深度学习的广泛技术,将分子属性与反应性能相关联。除了模型本身的类型,这些方法在应用领域、输入的多样性以及性能衡量或预测目标方面也有所不同。作者的重点关注的是那些以实验数据为训练基础,以预测定量性能指标(如反应产率、选择性甚至速率)为目的的模型。构建此类结构与性质关系以及更广泛的预测化学领域问题已经是最近综述文章的讨论对象。然而,除了许多使用模型预测化学反应性能的成功案例外,我们也见证了许多建模不太成功的情况。我们训练支持化学目标的模型的能力在很大程度上依赖于数据,这一点可能被人们忽视和少有报道。在这篇文章中,作者讨论了数据集设计的概念(图1)——即以建模应用为目的构建实验数据集,以及我们在学习未经专门为机器学习设计的数据集时遇到的一些陷阱。

图 1

确定所需应用领域

模型构建的一个主要考虑因素是所需的应用领域:即我们希望模型能在其上做出准确预测的输入范围。我们是否想要能够向模型查询任何一组反应物、条件和产物,并让它估算产率?或者,我们是否想要研究特定组合的已知底物?假设恒定不变的温度和反应时间是否可接受,或者我们还想了解这些因素如何影响反应性能?在这里,我们可以区分“全局”和“局部”模型。前者可能涉及使用文献数据,包含数百万个示例并涵盖数千种反应类型。后者可能涉及专注于单一反应类型和一组明确定义的底物及反应条件;在大多数底物范围研究中,反应条件并未变化。虽然全局适用模型在范围上具有吸引力,但通常有一个足够狭窄的应用领域是有利的,以最小化数据集中的潜在机制变化、反应性断崖或相互作用效应。这些因素不仅增加了建模难度,而且在模型输入中很少被考虑。这或许解释了为什么预测选择性比预测产率更可能取得成功。此外,一些文献衍生的数据集是从文本中算法提取的,并未经过广泛的手动整理或验证,因此某些字段可能被省略或不正确。

图 2

我们用于模型训练的数据集在多个方面都表现出多样性(参见图2A)。从已发布的文献中获取的数据涵盖了广泛的底物和反应类型,但每个反应物和产物的组合可能只被记录了一次或两次。相比之下,目前公共数据集中的高通量实验(HTE)只覆盖了少数几种反应类型。虽然现在也出现了更多样化的数据集,不仅在反应类型上,也在设计工作流程上有所不同。获取和筛选大量不同的底物是一个突出的挑战,这往往限制了在高通量实验中使用的不同组分的数量。这些高通量实验通常利用了离散变量选择的组合特性。例如,Ahneman等人的C−N偶联数据集涵盖了4140个反应,这些反应是通过组合15种芳基卤化物、23种添加剂等等在固定时间、温度和浓度下实施。同样,Perera等人的5760个Suzuki反应数据集是通过5种亲电试剂、11种配体等等的组合。即使每个组分只有几种选择,也可以快速代表一个大的实验空间,这通常会导致高通量的成本更高,特别是当有大量不同产品时,分析负担也更重。

个别组分或反应条件的变化直接关系到模型的适用范围。我们不能期望一个模型能泛化到与其训练资料大相径庭的新分子或输入。例如,一个只在室温下进行反应的模型是无法理解温度对反应结果影响的。在Ahneman等人的研究中,数据集中变化最大的组分是添加剂,总共有23种选择,这就为在原始论文中评估模型对未知添加剂的泛化能力提供了依据。如果只探索了三种碱,那么期望模型能预测第四种未见过的碱的表现是不现实的。同时,一个训练在反应空间狭窄子集上的模型通常不会很好地泛化到该空间的其他区域,这就使得选择一组适当的代表性示例非常重要。

选择反应性能指标作为输出变量

在数据驱动模型中可以用作预测目标(输出变量)的反应性能指标有很多。最常见的两个是产率(介于0到100之间)和选择性(例如,对映体比率、区域选择性等)。其他指标,如反应速率或速率常数,较少见,但这些指标过程化学家特别感兴趣。速率是一种时间和资源密集型的测量,需要在许多时间点收集产率/转化率。然而,速率可以在数量级上可靠地测量,并为实际实验考虑提供洞察力,如反应浓度、温度和时间。虽然选择性对于一部分反应来说是一个有用的指标,但在合成有机化学中更普遍和广泛报告的指标是产率。通常,产率预测只在大型、高通量数据集中的单一/狭窄反应类别中成功。如果尝试对多样化的文献数据进行建模,由于存在大量混杂变量(例如,浓度、时间、规模、实验硬件、实验者),可能会产生较差的结果,这些可能在反应描述中没有被考虑。不同的数据源倾向于展示不同分布的报告反应产率(图2B)。

产率是一个特别难以预测的目标。它量化了多个连续微观步骤的效率,并且会受到可能引发不同机制路径的反应条件变化的隐性影响。它是一个本质上更嘈杂的值,可能包含与产品分离相关的问题(因为报告的产率既包括了反应性又包括了纯化),这挑战了建模的有效性。重要的是,这也是一个时间依赖的过程,其中不同条件下的相对产率对于反应测定的时间选择很敏感。例如,如果反应在长时间尺度上进行,区分两种催化剂(一种快,一种慢)的效能的能力可能会丧失。大多数数据集是在单一时间点获取的,没有考虑到产率的速率依赖性;此外,研究人员可能故意选择更长的反应时间以实现更高的产率,没有意识到这可能会模糊反应速率的差异。

特定数据集中表示的反应输出值范围将影响其预测的输出值范围。这与适用领域的考虑相似,如果在做预测时期望看到足够的多样性,那么在训练过程中就需要观察到这种多样性。例如,如果训练集的输出在一个狭窄的区间内(例如,产率在70−95%之间),模型不太可能能够在该区间之外做出准确的预测。常见的模型类型如随机森林(RFs)和高斯过程(GPs)从根本上就无法做到这一点。多变量线性模型、神经网络等原则上可以,但它们的外推将比内插具有更高的不确定性。尽管如此,研究表明在预测过程中进行成功的(有时是回顾性的)外推,以选择在训练期间观察到的任何选择性都更好的催化剂是可行的。为了简化问题,旨在指导实验设计(例如,优化反应条件)的模型不需要对超出训练集的输出值进行准确预测就能够发挥作用,这一点通过化学领域和其他领域中用于贝叶斯优化的高斯过程的成功案例证明了这一点。

确定分子/反应表示法以帮助定义“多样性”

图 3

图 4

在化学反应性建模中,监督学习复杂的输入/输出关系是大多数模型的基础,因此这个“关系”应该指导数据集设计。模型泛化的能力在很大程度上取决于我们使用的表示方法;例如,基的分类模型(如one-hot编码)不允许模型预测未见基的性能,但基于共轭酸的pKa值的表示可能可以做到。如果我们打算训练模型以理解碱强度的影响,我们可能计划使用多样性基,其中多样性是根据碱强度定义的,反映在共轭酸的pKa值上。设计一个能够带来有用、可泛化模型的数据集的能力取决于我们对分子多样性的定义,无论是基于描述符、功能组指纹还是更一般的化学结构概念。每当我们为了模型训练的目的设计数据集时,我们都应该有意识地使泛化目标与数据点的多样性保持一致。

如果我们假设有某些分子特征与建模相关,那么这些特征应该构成定义多样实验集的基础。这可能包括使用基于密度泛函理论(DFT)的描述符,这些描述符直接捕捉分子的电子和结构属性,这些属性通常极大地影响反应性,或者是简单的理化特征如Mordred描述符。虽然后一种类型的描述符可以在毫秒内用化学信息学软件包轻松计算,但从DFT计算中获取描述符的计算成本可能很高,使这些工作流程对许多研究人员来说无法访问或不切实际。基于假设的方法提供了在描述符选择中发挥积极作用的能力;例如,使用一个空间参数和一个电子参数来定义一个二维(2D)多样配体阵列。专家这样选择特征会引入偏差,这有时是有益的,有时是有害的,进入数据集生成和建模。即使我们不知道建模任务中不同描述符的重要性,我们仍然可以根据一般的“整体”描述符集来定义多样性。在这两种情况下,根据描述符多样性(通过聚类)选择多样化反应组分已被证明比那些较少系统地选择的更具信息性。

如果我们对影响反应性的因素知之甚少,我们可以专注于更抽象的“结构多样性”。当处理新型反应类型或机制不明确的反应时,这种情况可能会出现。如果我们预测某些分子官能团存在/缺失将是预测性能/行为的主要因素,我们可能计划使用MACCS、EFG或其他结构指纹作为机器学习模型中的分子表示。然后可以设计数据集,以直接探究官能团对性能的影响。这可以通过聚类并选择结构指纹表示的簇代表来简单实现(图4A)。探究官能团存在的影响的另一种实验方法是使用Glorius鲁棒性筛选(图4B)。类似的高通量筛选添加剂的耐受性已经带来了对反应鲁棒性更深的理解。使用结构多样性作为功能多样性(或“合成多样性”)的代表性例子是使用化学信息库(图4C)。其中一个最初的信息库是一组18种结构多样且适度复杂的芳基卤化物,旨在采样用于药物化学活动中的芳基卤化物底物。

即使是如上概述的数据集设计方法,识别有用特征也可能只有在更深入了解反应的情况下才可能。在这些情况下,虽然聚类方法仍然有价值,但也可以以模型引导的方式使用主动学习来选择覆盖所需应用领域的底物。我们可以使用迭代实验设计来训练一个初始模型,然后选择哪些假设实验最具信息量来执行(图4D)。这种方法与贝叶斯优化密切相关,但与其定义实验的价值是为了优化性能指标(例如,产率),不如说是为了最大化模型准确性或最小化不确定性来量化实验的价值。虽然不常用,但主动学习已经在回顾性评估中显示出模型反应筛选能力的成功。目前已经有工作将主动学习和迁移学习结合起来扩展小数据集。

编译 | 曾全晨

审稿 |王建民

参考资料

Raghavan, P., Haas, B. C., Ruos, M. E., Schleinitz, J., Doyle, A. G., Reisman, S. E., ... & Coley, C. W. (2023). Dataset Design for Building Models of Chemical Reactivity. ACS Central Science.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档