前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JACS | 生成式人工智能作为分子设计的新兴范式

JACS | 生成式人工智能作为分子设计的新兴范式

作者头像
DrugAI
发布2023-09-09 08:36:10
3920
发布2023-09-09 08:36:10
举报
文章被收录于专栏:DrugAI

编译 | 王建民

传统的计算方法在设计化学物种时受限于需要计算大量候选物的性质,例如通过判别建模。因此,逆向设计方法旨在从所需性质出发,优化相应的化学结构。从机器学习的角度来看,逆向设计问题可以通过所谓的生成建模来解决。在数学上,判别模型通过学习给定分子或材料结构的性质的概率分布函数来定义。相比之下,生成模型旨在利用具有目标特性的化学物种的联合概率。生成建模的总体思想是实现一个系统,该系统能够生成预期具有一组所需化学特征的新化合物,从而有效地避开正向设计过程中的问题。

背景

对许多研究人员来说,将化学或材料发现过程置于科学方法的背景下是自然的。研究实践可以被扭曲成适应一个循环工作流程,包括问题识别、可测试假设的提出、计算或实验测量、数据分析以及原始知识的完善/重新审视。科学方法的价值是不可否认的;然而,它往往导致所谓的Edisonian式研究方法,其中通过人为引导的试错实验来进行系统性改进。需要强调几个关键点。最常被吹捧的是,Edisonian式研究缺乏解决具有大化学空间的复杂挑战所需的效率。这是出于设计的不足。传统的科学方法始终牢记最终的分子、材料或性质,但表征直到工作流程的几个步骤之后才发生。因此,在判断新材料和分子的质量之前,需要耗时的合成技术、样品制备和建模实践的开发和应用。所追求的发现任务的性质也是一个问题。正向科学方法在通过启发式和可用数据的收集可以轻松实现系统性改进时表现最佳。然而,高性能材料和出色的分子可能并且对许多问题而言不会与现有物种相似。这些情况需要在当前知识之外进行实质性的创新,以实现目标。逆向设计范 已经出现,以避免这些限制,其中目标处于发现过程的前沿,候选物在工作流中生成。

监督学习系统可以根据其功能分为两种类型的模型:判别模型或生成模型。为了在化学科学的背景下描述这些模型类型,我们将化学物种称为输入 (x),属性或功能称为目标 (y)。判别模型的定义是学习在输入条件下的目标:p(y|x)。例如,可以考虑训练一个简单的模型,从化学拓扑 (x1) 和分子量 (x) 推断溶解度 (y)。判别模型通常用于筛选已知或相关化合物,需要快速评估以从大量候选物中选择。这些过程需要人类化学家的洞察力来收集潜在的候选物,这取决于实验设计,对化合物的新颖性有限制。相比之下,生成模型利用输入和目标的联合概率:p(x,y)。生成建模的总体思想是实施一个能够生成可能具有指定 {y} 的新分子或材料的系统。有效的逆向设计依赖于将化学物质的生成偏向目标,而生成模型是一个受到广泛关注的策略。从概念上讲,生成化合物的新颖性受制于生成机制而不是人类化学家。无需根据假设的化学机制积累候选物的数据集,因为生成模型的角色是使用抽象的高维表示产生这种物质。这引发了机器驱动的假设的想法,可以增强或在某些情况下取代传统的假设制定。利用生成建模作为抽象假设生成的工具是一种新兴策略,我们预计这将是克服化学科学中各个领域挑战的关键策略。

推动生成模型实现的一个因素是机器学习和数据驱动研究的广泛采用。这得益于持续提高的计算能力,例如超级计算的出现。还有一个完善的机器学习工具软件生态系统,支持自动微分和大量的文档教程。这为那些希望进行数据驱动化学研究,如开发用于分子发现的生成模型的研究人员提供了相对较低的门槛。

构建有效的生成模型是现代化学研究中最大的机会之一。它们具有驱动自主科学发现的可行能力,因此可以重新分配人类科学创造力。生成模型还可以成为新兴机器人发现平台的关键组成部分。它们有能力加速我们解决紧迫问题的速度:这可以通过对可能难以用低维思维理解的复杂化学和材料基础进行处理来实现。这个观点的目标不是讨论实施生成模型的细节。然而,值得评论的是,发展和应用生成模型的困难不应被低估。

深度生成模型

生成模型方法多种多样,内部机制各异。尽管如此多样性,最终的目标是共享的:探索化学设计空间的未知区域,找到可以轻松合成和应用的高性能分子或材料。就迄今为止报告的生成模型而言,计算化学家主要实现了这一目标的前几步。许多研究报告了高性能物质的识别,然而那些进行实验验证的研究很少。也有例外,例如 Korshunova 等人最近的工作或 Zhavoronkov 等人的里程碑报告,这些成功支持了生成模型可以直接解决化学科学挑战。包括实验验证对于避免仅仅为了生成模型而进行生成模型至关重要。成功的生成模型与实验应用之间的共同之处是多组多机构的合作,强烈鼓励这种合作,并追求端到端的研究设计。根据经验,现代合成化学家和化学工程师渴望使用生成模型的结果,尤其是如果可以提供合成概要。

深度分子生成模型

分子生成模型汇总链接(GitHub)

https://github.com/AspirinCode/papers-for-molecular-design-using-DL

推进生成模型

方法论和指标

采用标准报告实践

基于机器学习的生成模型需要准确的数据集,这些数据集可以轻松地获取。策划高质量的数据集的价值很重要。从传播的角度来看,详细了解初始数据集对于解释结果的质量和生成模型创新的新颖性至关重要。应该达成并采用标准的数据报告实践,以持续发展生成模型。此外,对于生成模型,应该遵循详尽的报告实践。从经验来看,化学领域的文章常常会遗漏一系列从小到重要的实施细节。这可能导致重现性问题的累积,对于那些希望加入生成建模领域的人来说可能会产生困难,并且不必要地减缓进展。因此,在展示新的生成模型时,鼓励将完整的脚本、代码(附有有用的注释)、参数化、训练好的模型参数和书写良好的文档存放在公共代码库中。一个动机可能是采用与所谓的“真实分子模拟”类似的思维方式:透明、可再现、他人可用和可扩展。

生成性能的定量评估

在非正式情况下,阐述生成模型的期望性能标准是直接的,例如,“我的模型是否在已知物种分布之外产生逼真、多样且性能优越的分子?”,然而进行能够反映此类问题答案的有意义的定量分析要更为复杂。与此相关的一些挑战在 Renz 等人的工作中进行了讨论。考虑到通过生成模型进行逆向设计是一种新兴的范式,目前没有先例来描述不同生成模型的最佳度量标准。适用于特定生成模型的统计数据取决于所采用的机制以及输入和输出表示。基于文本的分子表示(例如,SMILES 或 SELFIES)可以借鉴自然语言处理领域应用的定量度量标准,如困惑度和交叉熵。不幸的是,这些度量标准在解决化学科学挑战时没有任何直接可解释的价值。不同生成方法的定量度量标准是计算机科学界的一个活跃的研究方向。这些方向上的研究努力可能会导致在应用方面具有实用价值的度量标准;然而,追求针对化学的替代方法似乎是更有可能的解决方案。总之,关注于生成机制的研究需要应用定量度量标准来描述科学应用的性能。此外,我们还需要解决一些方法论问题,例如模型生成多样物质的可能性、与已知数据集的偏离程度以及外推与开发之间的权衡。这些因素不能单独决定一个模型是否比另一个具有更大的科学价值,但它们是化学科学中生成建模实践总体发展的指标。

在标准数据集和任务上比较不同模型,即基准测试,是开发过程的一个重要方面。这可以帮助了解导致特定领域性能更好的潜在机制。例如,Gao 等人为分子优化提出了一项全面的基准测试研究,强调了样本效率的重要性、输入表示的影响以及各种方法在多样任务中的适用性。然而,由于在探索/开发和发现中使用的策略多样,生成建模策略之间的比较是具有挑战性的。Polykovskiy 等人在 MOSES 基准测试平台中提出了几种度量标准,可以用于评估生成模型的性能。类似地,Brown 等人创建了一个评估框架,称为 GuacoMol,提供了一系列标准化的生成建模基准测试。鼓励进一步发展能够在多种任务上准确比较生成模型的策略。对于现有和未来的生成模型来说,同样需要基于计算可扩展性指标进行分析的基准测试任务。最后,我们主张进行有意义的基准测试,但对这种做法的价值应谨慎解释。在特定基准测试任务上取得优于另一个模型的明确声明,并不一定等同于更大的科学价值。公平的生成模型基准测试是一个模糊的任务。在应用或实验设置中,展示一种方法在发现方面的独特性能优于其他方法是一个具有吸引力的未来研究方向。

可扩展性和效率

教程和软件工具包的可用性使得任何有合理决心的人都能够执行机器学习任务;然而,这可能会导致牺牲效率和适当的编程实践。对与分子或材料生成模型出版物相关的开源代码库的经验表明,存在一个趋势,即代码的编写更偏向实用主义而不是效率。虽然这不会妨碍短期的科学报告,但长期的生成模型进展肯定会涉及在大型异构计算资源上可并行化的大数据训练模型的组成部分。实现这种模型的一步是在超级计算中心提供的资源上教育化学科学研究人员如何最大限度地提高机器学习模型的效率的策略。通常,实现优秀的机器学习模型的关键在于编程细节:从数据精度等微妙的主题到更复杂的设计决策,如模型和数据并行化策略。一个值得从效率重要性中汲取灵感的领域是自然语言处理,近年来,自然语言处理使用大数据和大模型取得了出色的结果。生成分子和材料发现任务的生成模型应该朝着类似的规模迈进,以应对复杂应用。根据我们的经验,生成模型通常在数万到数十万个样本时才变得有用,调整实用性和发现能力往往需要几个数量级更多的数据。

可解释性

超越生成高性能分子或材料的一步是理解模型达到目标的机制。具有可解释基础的可解释性生成模型可以优化化学理解。分析生成机制的一个困难是,数据驱动技术可以在高维空间中有效运作,这对人类研究人员来说是一个挑战。一种常用的通用可解释性分析工具是使用降维技术,例如 t-SNE 或 UMAP,允许将高维数据可视化为低维表示。根据使用的机制,还可以执行生成模型特定的分析,不同模型在可解释性方面会有所不同。遗传算法是最可解释的模型之一,因为可以在改进适应性的多代中执行持续的亚结构和化学模体分析。还有关于理解遗传算法探索行为的创意可视化过程的报告。其他生成建模方法如 VAE 主要依赖于 t-SNE 和 UMAP 等技术来提高可解释性。为了理解这些方法的探索能力,可以在潜在空间中进行基于距离的分析,然而,这应该被视为一种定性度量,因为两点之间的距离是非唯一的,取决于模型初始化和训练。RL 可能是我们讨论过的最不可解释的方法,因为需要大量的分析来确定模型在一系列经验中学习的状态-动作空间。追求开发能够阐明生成模型在化学上相关内部工作的可解释性技术和富有洞察力的可视化方法是需要关注的领域。

拥抱主动学习

主动学习是指在训练或推断过程中考虑处理新数据的做法。例如,在训练过程中,可以使用主动学习来限制将数据点纳入模型的目标函数中,以改进模型的目标函数。其中一个常用的策略是“Query-by-committee”,其中通过在相同数据集上使用不同初始化训练的多个模型之间的不一致性来计算不确定性。对于使用“Query-by-committee”来减少训练数据集大小而不牺牲准确性的示例,可以参考 Smith 等人的工作。大多数生成建模策略都可以从在其工作流中使用主动学习中受益。

应用生成建模

结合合成化学

存在明确的兴趣将生成模型用于自动化化学发现任务;然而,这种策略的有用性取决于所建议的分子或材料组分的合成可行性。即使对于生成的全新物质存在合成途径,它也必须符合目标应用的放大限制。更直接地说,具有低产率和多步合成、异域化学或严酷反应条件的物质可能不太可能具有广泛的重要影响。采用后处理生成模型的标准做法,例如反应网络特性、逆向合成分析或经验合成可实施性评分,作为一种短期策略是值得的。然而,研究人员预计长期内生成模型的实用性将通过与合成化学的约束之间的紧密联系最好地实现。在这个方向上的最近进展包括使用强化学习构建使用反应模板的合成树,以及一种联合编码分子和合成反应序列的条件变分自编码器等。未来的生成模型应该具有将发现偏向于创造性和可实施性的物质并能够被轻松合成的机制。正在探索一些想法,比如蒙特卡洛树搜索、有向无环图分析和无模板变换器等。通过设计一个包含可合成性贡献的损失函数,可能可以引导生成可行的化学物种。然而,需要考虑一些问题。全新的分子可能是全新的合成化学的结果,因此,实施具有合成可行性约束的损失函数需要一个足够动态的系统来识别这种途径。此外,探索和开发的过程变得更加复杂。例如,以合成可行性约束运行的生成模型可能需要在找到更可合成分子的路径时平衡牺牲即时目标性能的价值。我们预计在这个领域进行系统分析将至关重要。

结合实验

目前正在进行着构建自动化实验平台的努力,其最终目标是建立一个在足够的时间、资源和功能下能够以最少的人为干预来发现化合物的系统。对于一个自动发现平台来说,要作为一个自主驾驶系统,它必须能够识别新的化学物种并制定合成策略。这是一个新兴的研究领域,但已报告的成功案例是令人鼓舞的。为了使生成模型直接有助于解决化学科学中的挑战,将它们与自动化实验相结合是有价值的。有趣的是,考虑将实际约束纳入到生成模型中,使其在自主驾驶的发现任务中充当选择器。例如,未来的自主实验室可能会有固定数量的反应物和支持的合成条件。因此,值得探索将分子或材料的生成偏向于回答诸如“在这个机器人平台的容忍度内,最高性能的化学物质是什么?”这类问题。对于受限的发现,短期答案可能是设计的多目标损失函数。然而,研究人员预计随着发现任务的复杂性随时间增加,这种方法将不会长久存在,需要生成模型研究人员和自动化实验专家之间的合作努力来找到稳健的解决方案。不幸的是,自动化实验的可访问性有限。开发可访问、小规模和成本效益高的测试平台,供合成/计算化学家用于开发实用的生成模型,可能会具有吸引力。

高分子、材料和组装

具有大分子组分的大分子和材料是应用生成模型的具有挑战性的物质。一方面,这些物质的大小为可扩展和信息丰富的分子表示引入了困难。大分子输入表示正在兴起,例如 BigSMILES,但它们尚未在生成模型框架中应用。避免对大分子和组装的描述符进行描述的一种常见策略是假设聚合物级的性质可以从构建单元的化学细节中推断出来,即端到端预测。这在判别模型中已被证明是成功的。应用生成模型于聚合物系统的领域可以通过开发和应用创意性的大分子表示来增强。另一方面,由于许多聚合物材料呈现非晶态结构,材料信息学技术受到限制。这导致这类系统的训练数据稀缺,因此非晶态结构的生成模型尚未被充分探索。为支持非晶态系统的生成模型开发,应追求高通量方法,以实现快速的原子模型构建和测量。在这一领域的努力对于策划具有足够细节和化学覆盖范围的数据集以加速发现大分子物种至关重要。关于有序结构,如有机晶体,能够生成晶胞和分子排列的方法对于这一重要类别的功能材料可能产生广泛影响。

计算生成建模

工程发现作为强化学习

强化学习(RL)技术是通过对状态、动作和奖励的处理来定义的。这三个组件需要根据生成模型框架中的发现任务进行设计。特别是,选择奖励的函数形式对于生成模型的探索和利用能力至关重要。目前还没有关于系统地变化多目标奖励函数并报告其对生成模型性能影响的研究;然而,这类研究在我们看来有着显著的价值。强化学习方法在没有先前的试错经验的情况下往往难以训练,因此,需要不断发展稳健的建模方法。训练策略可以大致分为在线学习、离线策略和离线 RL。从稳健性的角度来看,离线 RL 在这三者中最具吸引力。值得强调的是,研究人员对基于离线 RL 的生成模型的评论是出于其训练更简单,并不是对其性能优于在线学习或离线策略的认可。离线 RL 范式是通过在一个已建立的经验数据集上学习状态-动作空间的奖励来定义的。这种设置提供了一个对于超参数不太敏感的 RL 解决方案,因为数据集是固定的。然而,两个常见的问题重新出现了:(1)用于训练的数据集需要进行策划并提供,以及(2)模型初始适应状态-动作空间的能力取决于数据集的构成。需要进一步发展适用于生成模型的离线 RL 方法。

与机器学习潜力集成

这个观点中,突出显示的主要生成方法都有一个重要的共同点,即它们依赖于目标的高效准确评估。许多目标属性都是由相互作用的势能和自由能导出的,因此,快速分析可以实现生成模型的成功。在用于表征相互作用能和力的最准确方法中,量子力学计算是其中之一,其中一个显著的例子是密度泛函理论。然而,这些计算太耗时,难以集成到生成模型的大数据量工作流阶段中,因此主要用于适用时的测试。这在对于大分子或材料系统(如聚合物)尤其如此。

一个有吸引力的替代方案是用机器学习的原子间势(MLIP)代替量子力学计算。如果构建得当,这些方法可以以减少几个数量级的计算成本实现接近密度泛函理论的准确性,这使得它们可以成为生成模型的有用组成部分。MLIP领域正在迅速扩展和增长,不断增加其复杂性:已经报道了一些准确的机器学习势,最近的努力还包括了长程相互作用。作为MLIP效用的最近例子,Rufa等人的工作使用了ANI2x来将蛋白质-配体系统的绝对结合自由能计算精度提高到0.5 kcal/mol,从而为小分子药物发现的生成模型提供了可以使用的精度。

创新的生成策略

化学中的生成模型取得了持续的进展,但在闭环形发现系统中的有效应用仍处于初级阶段。许多生成模型仍然难以实施、训练和应用。开发出能够高效地进行目标引导探索或外推的强大策略是需要关注的领域。值得指出的是,许多关于生成模型的报告可以归类为从计算机科学领域中正在进行的一般方法研究进行的改编。目前尚不清楚化学科学领域中生成模型的发展是受到了阻碍还是得到了支持。追求针对化学科学面临的搜索、发现和改进挑战特定的生成策略可能会有价值。例如,值得质疑的是,通用的强化学习算法,可以解决“倒立摆”等问题,是否最适合于发现分子或材料。类似的观点也可以适用于其他讨论过的生成方法。

结语

应用生成模型为化学科学中的设计和发现提供了机会重新定义。越来越多的生成模型示例表明了未经探索的化学物质。现在是超越展示生成模型可行性的阶段,转向将其实际应用于解决科学挑战的时候了。可以说,现代化学研究的一个圣杯是实现高效的闭环发现过程,其中目标分子或材料在最小人为干预下生成、合成、表征和改进。这可以以自主实验或自主量子力学计算再加上合成化学的形式来实现,等等。考虑到生成模型预计对未来化学研究的影响,计算化学家和合成化学家之间的合作是必不可少的。

本文强调,在化学设计空间中探索有趣的分子存在许多超越人类直觉的独特策略。虽然无法准确预测未来的化学和材料研究的确切性质,但生成建模方法在迄今为止已取得的成功表明这些技术将继续存在。研究人员认为,某些化学研究实践,例如通过组合学进行分子发现,最适合由机器处理,这是一个应该被愿意接受的观点。这并不是说预期生成模型将推动人类科学家的过时。相反,成功的生成模型可以是发现新颖分子和材料的卓越工具,这些分子和材料在当前化学中可能是不可想象的,从而推动人类科学家重新考虑和改进他们的化学理解。即使失败,生成模型也可以构建多样的计算化学库,可能在化学家和材料科学家中激发创造性的创新。以应用为重点的生成建模将是加速化学研究的关键一步,使得能够实现解决紧迫挑战的可实施解决方案。生成模型是一种新兴研究风格的核心,其中人类化学家指明一个方向,并构建一个机器来制定假设并进行研究。

参考资料

  • Anstine, Dylan M., and Olexandr Isayev. "Generative Models as an Emerging Paradigm in the Chemical Sciences." Journal of the American Chemical Society 145, no. 16 (2023): 8736-8750.
  • Vanhaelen, Quentin, Yen-Chu Lin, and Alex Zhavoronkov. "The advent of generative chemistry." ACS Medicinal Chemistry Letters 11, no. 8 (2020): 1496-1505.
  • https://github.com/AspirinCode/papers-for-molecular-design-using-DL
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档