前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Chem. Inf. Model. | 预测化学反应产率面临的挑战

J. Chem. Inf. Model. | 预测化学反应产率面临的挑战

作者头像
DrugAI
发布2024-02-23 18:24:40
1020
发布2024-02-23 18:24:40
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Varvara Voinarovska团队的一篇论文。这篇论文讨论了器学习(ML)在预测化学领域的高级特性(如产率、化学合成的可行性和最佳反应条件)时面临的挑战。这些挑战来源于预测任务的高维性质以及涉及的众多关键变量,包括反应物、试剂、催化剂、温度和纯化过程等。成功开发出可靠的预测模型不仅有助于优化高通量实验,还可以提升现有的逆合成预测方法,并在该领域内的多种应用中发挥重要作用。

机器学习技术已经成为预测化学反应各种属性的重要工具,涵盖了从计算机辅助合成计划到各种不同工具和模型,帮助化学家处理多种任务。例如,逆合成模型可以建议如何分解一个化合物,包括单步预测或多步预测,提供从简单原材料合成复杂化合物的步骤。此外,还有产物预测模型,用于预测两种或多种反应物的产物,或提供关于选择性的指导。尽管有很多令人鼓舞的研究报道,但化学领域的机器学习模型并非没有受到批评。此外,虽然许多研究强调了通用反应属性(如回归和分类任务中的产量预测),但物理化学属性(如反应速率和活化能)的关注度较低。在有机合成,尤其是药物发现和制药开发中,反应产率预测具有特殊重要性,因为在复杂的多步骤过程中,任何一个步骤中产率的下降都可能严重影响整个合成的成功。因此,制定能够预测多种药物相关反应产率的模型至关重要。这些预测模型提供了许多好处,从降低合成成本使药物更加经济到减少不必要副产品的出现,增强合成的可持续性。

在相关历史上,预测反应产率一直是一个挑战。20世纪40年代的哈米特方程的出现是物理有机化学中的重大成就,它联系了反应性和化学结构。到了80年代,化学家开始使用基本方法预测小有机分子的属性,并在1992年引入了用于结构−活性关系的第一个神经网络应用。2000年代,使用随机森林和支持向量机在定量结构−活性关系(QSAR)方面取得了成功。从1980年代末到2010年代初,经典的机器学习模型开始模仿化学家的规则,用于预测物理属性和反应结果。然而,有限的计算能力限制了更高级的方法。但到了2010年代中期,微电子学的进步促使复杂的机器学习技术兴起。2016年,从专利中系统提取的超过一百万反应的数据公开发布,进一步推动了更复杂模型的发展,这些模型基于最新的深度学习方法。为了全面了解产率预测当前的挑战,这篇工作聚焦于两个关键方面:数据和建模。这些方面构成了当前挑战的核心。

数据问题

生成反应数据的实验方法:目前已有大量的反应数据可用,作者在这里强调一些在现代人工智能(AI)驱动时代促进高质量反应数据生成的有希望的实验方法。近年来实验开发的一个关键概念是有机合成的自动化。这包括在自动固体和液体处理、精确配药、使用捕获和释放技术的自动化化合物纯化,以及自动控制反应参数(如温度、压力、均一性和颜色)方面的进步。实施反应自动化提高了化合物合成和反应再现性的吞吐量,通过消除人为交互中的错误和误操作。通过结合自动合成和纯化,研究人员能够使用交叉偶联反应生成14类有机化合物,并记录高质量的反应数据。此外,通过降低单个实验的规模,也可以提高反应数据生成的吞吐量。在一项研究中,使用每次反应仅0.2毫克的起始材料,在不到一天的时间内进行了1500多次布赫瓦尔德-哈特维格实验。连续流化学方法也在合成界越来越受欢迎。批处理和连续流化学方法都可以直接与计算机控制系统耦合,形成一个封闭的、自主的合成单元。研究表明,计算机系统可以直接利用生成的反应数据,基于主动学习实验设计方法,所有感兴趣的产品都以高产率获得,无需任何人工干预。

表 1

化学反应作为物理对象的复杂性:预测反应产率的挑战源于众多变量的复杂相互作用。特别是有机反应,在不同条件下可以沿着多样的途径进行,导致一系列产物及其相关产率。作者在表1中展示了对实验产率影响最大的因素。不同的反应实验报告引入了变化性,这反映在术语上,如粗产量、孤立产量、转化产量和选择性。每个术语都传达了总产量的独特细微差别。特别是孤立产量,它考虑了纯化过程,通常由于纯化过程中的损失而报告较低的值。因此,选择最相关的产量术语对于准确评估化学反应至关重要。研究人员揭示了许多显著影响化学反应结果的因素。一项研究结果表明,要了解一个铃木反应的单对反应物影响的所有变量,将需要惊人的六十亿次实验。这揭示化学反应性的复杂细节方面科学家们所面临的深层复杂性和挑战。克服这些挑战需要合成化学家和化学信息学家之间的紧密合作。结合对分子反应性、所有组分的属性及其相互作用的基本知识对于准确预测至关重要。可靠、高质量数据的存在是推动化学反应产量预测进展的基本要素。

图 1

数据整理和存储:在分子数据存储的多种格式中,三维(3D)格式如MOL、SDF和MDL RXN以其详细程度和清晰呈现分子结构的方式而知名。然而,尽管它们十分详细,但并没有像一维(1D)和二维(2D)基于字符串的分子表示那样广泛接受。这些格式需要较复杂的预处理,进一步降低了它们在机器学习任务中的使用。在机器学习中常用的SMILES(序列)格式具有广泛接受、用户友好和可读性等属性。然而它的使用伴随着固有的挑战,如非标准化表示、描述复杂金属有机化合物的困难等。SMILES表示法的局限性在复杂实体的背景下变得更加明显,例如过渡金属有机化合物可能会在SMILES中被错误地以类似的方式表示,从而在数据中引入潜在的差异。为解决非唯一性和无效 SMILES 表示的问题,研究人员开发了SELFIES,旨在仅产生有效的分子结构。然而,即使在 SELFIES 取得了进展,其采用仍然有限,且尚未完全解决与复杂分子相关的当前问题。

表 2

合适的数据集:经常用于产量预测的基准数据集包括Buchwald-Hartwig coupling High-Throughput Experimentation(BH HTE)数据集、the Suzuki coupling HTE数据集以及United States Patent Office (USPTO) extracted数据集。前两个数据集来源于高通量筛选,旨在寻找最佳反应条件,并代表了许多反应变量组合的全面探索。,SPTO 数据集是通过文本挖掘美国专利而收集的,覆盖了1976年到2016年9月的出版物,因此包括了稀疏和多样的化学反应数据。HTE 数据集和专利数据集在内容和质量上显示出明显的差异。HTE 数据集主要关注化学反应空间的特定部分,提供了与测试的某些反应模板相关的详细信息,例如用各种选定的前体(如反应物、溶剂、碱、催化剂等)进行的测试。另一方面,专利中的反应涵盖了化学领域更广泛的范围。当前可用的其他反应数据库包括商业产品如CAS、Reaxys和Pistachio。最近推出了开放反应数据库(ORD),这是一个开放获取的计划,旨在整理和托管为训练机器学习模型量身定制的反应数据,不同的数据集在表2中列出。

图 2

数据集的问题:作者总结了化学信息学家在处理化学反应数据时遇到的一些常见问题(图2)。首先作者指出报告反应的产量数据问题。大家通常只记录主要产物,对副产物的数据有缺失。即使记录了部分副产物,其分布也没有细致化记录。因此,许多反应数据不能用于产量模型,或者需要大量预处理。Schwaller等人指出, USPTO的数据需要进行区分,其既包括亚克级别也包括克级别的反应规模。较低的反应规模通常表明是“测试反应”,即进行的初步实验,用于评估反应的可行性。相反,较高规模的反应,通常被称为“优化”反应,通常伴随着对反应条件空间的全面探索,以确定产生最大产物的条件。Fitzner等人的文章强调了化学文献中的偏见和多样性,指出当前反应数据状态的固有缺陷。通过对来自多个数据库的62,000多个偶联反应的广泛分析,他们提供了数据驱动的指南。这些指南不仅推荐反应条件,还有助于识别与用户选择的特定底物属性相匹配时表现最佳的不太常见的配体。

模型部分

图 3

化学反应产量预测有不同策略,大致可以分为局部方法和全局方法,这与用于建模的数据规模密切相关。局部方法包括针对特定反应精确度的传统指纹基方法,而全局方法涉及能够处理大型数据库的尖端深度学习技术。这一部分提供了这些策略的全面概述,强调了它们在预测反应产量方面的各自优势和挑战。化学反应产量预测可分为两类,与用于建模的数据规模密切相关。第一类包括传统的指纹方法,这些方法类似于用于较小化学系统的定量结构-活性关系(QSAR)建模。第二类涉及利用语言模型编码和图编码的深度学习技术,这对于大数据任务很典型(见图3)。

表 3

反应编码:作者介绍了指纹编码的历史,这可以追溯到1960年代,那时创造了第一个基于子结构的指纹。这些以子结构为中心的指纹在几十年间保持了它们的突出地位,捕捉了化合物的关键化学属性。表3中展示了一些广泛使用的指纹实例。CGR,反应的缩合图,是一种将反应物和产物结合成一个二维图的表示方式。CGR方法使用矩阵中片段出现的频率来编码分子结构。它提供了反应物和产物分子的叠加信息,描述了原子和键的变化。这种方法在最近的化学信息学研究中越来越多地被采用。

数据有限的情况下与主动学习策略:主动学习策略通过发现和利用最重要和最有信息量的特征,从有限的数据集中提取最多的知识。通常,从单一实验设置(通常是高通量实验,HTE)得到的数据集被认为是“低数据”实验。这样的实验设置通常是:从单一实验得到不超过一万个单一反应。在使用机器学习进行产量预测的先驱工作中,Ahneman等人在HTE数据集上采用了多种密度泛函理论(DFT)计算描述符和多种ML技术,包括随机森林和简单的神经网络。然而,他们的方法后来被发现DFT特征的潜在冗余信息价值。尽管受到批评,但随后Żurański等人的研究表明,DFT特征确实可以提供对反应机制的有价值的知识,并且在多样化的反应空间中展现出更强的泛化能力。在另一项工作中,Dong等人使用SHAP(Shapley Additive exPlanations)库与XGBoost模型研究了产量预测中特定特征的重要性,SHAP的使用提供了最重要特征的分析。Johansson等人的研究显示只学习HTE数据集的一小部分就足以达到高预测准确率。该研究采用了一种基于不确定性的主动学习策略,称为Margin,并且仅使用选定的10%的BH HTE数据集就达到了AUROC 0.9。Kexin等人提出了MetaRF,这是一种通过元学习框架优化的基于注意力的随机森林模型,用于少样本产量预测,并引入了一种基于降维的采样方法以改善少样本学习性能。Rankovic等人使用不同的指纹、贝叶斯建模,并以BH HTE数据集为基准,优化了导致产量更高反应的添加剂选择问题。

针对“大数据”的化学反应产量预测模型的应用和发展:这里的“大数据”指的是来自相同反应类型的多个实验或结合了从不同来源得到的多个反应类型的更一般的数据集,通常这些数据集的数据点超过数万个。Schwaller等人开发的Yield-BERT是一个里程碑式的模型,成功实现了Transformer架构,并使用SMILES表示作为输入,在BH HTE数据集R²达到了0.951,数据增强方法提高了Yield-BERT的能力,尤其是在稀疏数据集的情况下,发挥了关键作用。Baraka等人采用了基于多模态transformer的模型来反应产量在 BH HTE数据集R²达到了0.959。他们的发现强调将多种模态融合到预测过程中可以显著提高这些特定化学反应的结果。对于将反应视为图实体的深度学习模型,最广泛使用的框架是图神经网络(GNN)和消息传递神经网络(MPNN)。Sato等人将MPNN与自注意力机制结合用于产量预测;在 BH HTE数据集上该模型的R²达到了0.972。他们的工作强调了模型计算中特定原子信息的重要性。

基准测试

作者进行了一系列实验,旨在展示包括中等规模和大规模数据建模场景在内的典型产量或反应性建模示例。作者深入探讨了Buchwald-Hartwig反应的内在复杂性,这些复杂性显著影响了建模过程以及一般建模的可行性。此节分为两个案例:“成功”和“不成功”。

图 4

图 5

图 6

表 4

一个成功的案例:这一部分解释了使用高通量实验(HTE)对Buchwald-Hartwig反应产量(图4)进行预测。Ahneman等人在这一领域做出了重要贡献。在这项工作中,反应数据集是通过在三个1536孔板上进行高通量实验生成的。这项工作使用了15种芳基卤化物、23种添加剂、4种钯催化剂和3种碱。Ahneman等人使用了从DFT级别理论模拟反应组分得出的一系列分子属性作为描述符。作者评估了多种机器学习模型,包括线性模型、k-最近邻(k-NN)、随机森林回归、支持向量回归和贝叶斯广义线性模型,到浅层人工神经网络(ANN)。他们的研究结果表明随机森林模型是最佳的。然而,他们的研究也并非没有争议。Chuang和Keiser对他们的方法提出了批评,提出了证据表明,用随机值替换DFT描述符或采用简单的one-hot编码产生了可比的模型性能。他们认为Ahneman等人对DFT特征的重要性可能被夸大了。Ahneman和同事们承认了这一批评,他们同意在后续研究中加入随机对照的重要性,强调了其在提高未来工作的鲁棒性和有效性中的关键作用。这个数据集具有几个独特的特征,在产量预测的背景下值得注意。首先,它包含了大量、密集的反应数据,涵盖了多种反应物、配体和试剂的组合,所有这些都标有相应的产量。这使得数据能够进行视觉表示,如图5所示,数据被聚类成不同的区域,并根据产量进行着色。从中可以识别出低产量和高产量的区域。为了更全面地了解应用于此数据集的最新方法,作者进行了一系列实验来复现现有结果并评估模型的泛化能力。一类方法是利用指纹的树模型和基于核方法的ML模型。此外还有Yield-BERT模型,使用SMILES编码。在最初的使用随机分割数据的模型测试中,模型表现一般,正如图6所示。结果显示,在简单模型中,DRFP编码展现出了最好的性能,略微优于ECFP4指纹。随后对数据集所占据的化学空间的不同部分进行了进一步评估。作者采用基于DRFP特征定义的簇来进行留一簇外(leave-one-cluster-out)验证设置。正如表4中总结的,结果显示了还算满意的性能。

图 7

图 8

图 9

一个失败的案例:作者呈现了一个不成功的案例,即在多样化数据集上进行的Buchwald-Hartwig胺化反应产量预测。这个例子展示了产量预测面临的挑战,并强调了推进在条件编码以及整体预测方法上的知识的重要性。为了获取反应数据,作者使用了Reaxys以及其他可用的开源数据集,如AZ ELN、Doyle和从USPTO提取的数据。如图7所示,从学术实验和工业专利获得的数据集特点是报告的产量较高,而从电子实验室记录和高通量实验衍生的数据集往往包含产量较低的反应数据点。作者使用t-SNE分析了反应嵌入的分布。这将作为模型适用性域的定性分析。值得注意的是,当包含试剂时,高通量实验数据集在DRFP嵌入中表现出明显的分离,如图8所示。相反Reaxys、USPTO和AZ ELN数据集在化学空间中占据了不同的区域。作者对USPTO数据进行了建模,并在所有数据上进行了测试。模型性能的分析如图9中反映的均方根误差和R系数所示,结果是十分不令人满意的。当在真实世界的Buchwald-Hartwig反应数据上测试时,简单模型表现出与更复杂的Yield-BERT模型相同的性能。这种性能和泛化能力的缺乏可能源于多种因素,包括数据内的噪声。根据图8中的t-SNE图表显示,USPTO和Reaxys数据集之间存在相当大的重叠,这表明Reaxys的反应在USPTO衍生模型的适用性域内。AZ ELN数据也有类似的重叠,但HTE数据集重叠较少相应结果也很差。这一观察意味着当前的特征化方法可能难以捕捉特定反应固有的复杂细微差别。因此,捕捉这一特定反应的复杂化学性质所面临的挑战并不意外。这些挑战可能包括数据中的噪声问题、不同数据源之间的不一致性,以及模型在应对化学反应的多样性和复杂性时的局限性。

编译 | 曾全晨

审稿 | 王建民

参考资料

Voinarovska, V., Kabeshov, M., Dudenko, D., Genheden, S., & Tetko, I. V. (2023). When yield prediction does not yield prediction: an overview of the current challenges. Journal of Chemical Information and Modeling.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档