前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >药物发现中的分子设计:深度生成模型的全面回顾

药物发现中的分子设计:深度生成模型的全面回顾

作者头像
DrugAI
发布2021-09-17 11:47:23
3.1K0
发布2021-09-17 11:47:23
举报
文章被收录于专栏:DrugAI

作者 | 李万相 审核 | 付海涛

今天给大家介绍湖南大学刘元盛老师团队发表在Briefings in Bioinformatics 2021上的一篇文章“Molecular design in drug discovery: a comprehensive review of deep generative models”。文章回顾了深度生成模型,并根据计算机中的分子表征将这些模型分为两类,详细分析这两种经典类型的模型并讨论其优缺点,同时还指出了de novo分子设计的深度生成模型当前面临的挑战。

1.摘要

深度生成模型自提出以来一直是深度学习的热潮,这些模型旨在通过拟合数据近似分布来生成新的合成数据,包括图像、视频和文本。在这篇综述中,作者主要关注药物发现中分子生成的深度生成模型,首先介绍了分子的表征方法并总结了常用的数据库,展示了不同表征的优缺点。对于生成模型,作者强调基于de novo分子设计领域的不同表征的最新进展,与最先进模型的比较,进行客观的评价便于读者选择和改进。同时,作者还列举了在该领域中要面临的一些挑战,以促进新研究的发展。

2.分子表征

2.1 基于SMILES的表征

基于序列的表征主要使用线性字符串来表达复合词,它们很容易被计算机系统记忆和处理,一维线性表示目前包括SMILES和国际化学标识符(InCHI)。SMILES是一个ASCII字符串,它使用从分子图到文本的映射算法,其中使用严格的语法简化了化学结构。SMILES形式的分子示例如图中A所示,从分子结构到文本的转换使得SMILES易于被计算机处理,易于用于训练机器学习模型。SMILES既有优点,也有缺点:(1)SMILES未能捕捉到分子结构的相似性,两个相似结构之间的微小变化可能会导致SMILES字符串有很大不同,这导致从生成模型中学习到的潜在空间不平滑。(2)SMILES 字符串是非唯一的,一个分子可以编码成多个SMILES表示。这些问题在目前的工作中或多或少都得到了解决。

2.2 基于图的表征

SMILES是从基于图形的分子表示中生成的,结构式常用于表示化学中的分子,因此描述分子结构的更直观方式是分子图。分子图的示例如图中B所示,每个分子都可以表示为一个无向图G,其中节点集V和边集E由原子

和键合

组成。

3.深层分子生成模型

3.1 基于SMILES的模型

基于VAE的生成模型

VAE通常包含一个编码器和一个解码器,编码器将离散数据映射到一个连续的潜在空间,为了对特定属性执行无约束优化,解码器负责将潜在向量重构为具有化学有效性的SMILES。基于VAE的模型旨在最大化Kullback-Leibler散度可能性的证据下界 (ELBO)。

基于GAN的生成模型

在过去的5年中,使用GAN生成具有特定所需特性的新型分子的案例研究取得了里程碑式的进展,尤其是GAN和强化学习的结合。GAN包括一个模仿真实样本的生成器,一个最大程度区分生成器输出和实际样本的判别器,GAN的最终目标是让判别器无法判断生成器的输出是否是假的。

基于RNN的生成模型

RNN是连接模型,能够通过节点网络中的循环单元捕获序列的动态,可以轻松处理由序列组成的输入和输出的。近年来,由于RNN的训练困难,人们提出了对网络架构的一些改进,如长短期记忆(LSTM)和门控循环单元 (GRU)。LSTM增加了替代传统单元的记忆单元,解决了RNN训练遇到的困难,GRU的简单性更适合构建更大的网络。

由于SMILES被视为文本字符串,自然语言处理中的大量模型能够扩展到从头分子设计领域。例如,在未来的研究中,可以将所需特性的分子生成视为一种翻译,可以将特定目标语言(蛋白质序列)翻译成SMILES语言。值得注意的是,尽管近年来基于SMILES的模型激增 ,仍然面临有效性问题,而且SMILES的非结构化性质使得两个相似的分子极有可能完全不同。

3.2 基于图的模型

基于VAE的生成模型

基于VAE的生成模型最具代表性的工作之一是连接树变分自编码器(JT-VAE),JT-VAE从分子的亚结构组装构建块,通过从训练集中分解分子,包括环、官能团和原子。与之前逐节点生成图相比,整个过程分为两个阶段,首先将有效支架及其排列表示为树,然后通过在相交组件之间添加边将整个树集成到图中。这种设计具有三个关键限制,首先,使用JT-VAE进行属性优化更加困难,因为具有相同连接树的两个分子可能对应明显不同的属性;其次,在生成过程中不考虑节点顺序排列会导致耗时;第三,由于现实中药物分子的复杂性,子结构中少于20个原子是不切实际的。

基于GAN的生成模型

尽管GAN在某些领域得到了广泛应用,但其在生成分子图方面的发展却是微乎其微的。GAN容易产生模式坍塌,同时由于避免了基于似然的损失函数,GAN使分子优化变得非常稳定,旨在平衡对抗性训练和属性约束。

基于RNN的生成模型

基于RNN的生成网络将图的生成建模为一个顺序过程,并在生成图时做出自回归决策。GraphNet是第一个基于RNN的图模型,它基于消息传递神经网络(MPNN)的框架,其本质是在现有图中添加一个新的原子或键。更具体地说:(1)选择是否添加原子(2)计算现有图的概率以确定是否添加新边(3)计算图中的一个节点连接的概率。

基于流的生成模型

基于流的生成模型已应用于图像生成,并且最近开始在分子生成领域中获得关注。在标准化流的帮助下,基于流的生成模型明确地学习由可逆变换组成的数据分布,将初始变量作为输入,通过重复使用变量规则的变化将其转换为具有各向同性高斯的变量,这类似于VAE编码器中的推理过程。

现有的基于图的模型大致可以分为两种类型,一种是顺序迭代过程,另一种是一次性生成,具体可以分为逐原子,基于子图(片段)模型。由于图的优势和图神经网络的发展,基于图的生成模型现在在分子设计中占据主导地位,但仍然存在一些挑战,如随着节点大小的增加,总计算量至少会增加节点数的平方,导致很难获得精确的似然等。因此,应该更好地解决节点排序问题,有利于生成高质量的分子。

4.总结

本文中,作者阐述了深层分子生成模型的不同阶段,说明了基于序列和基于图的生成模型的优缺点。分子生成模型的开发方式对药物发现起着重要作用,尽管已经取得了实质性进展,但在提高现有生成模型的性能和改进综合可访问性指标方面仍有很大的空间。这些技术和计算能力的提升有望进一步提高生成具有精心设计的药物特性的分子的质量,并进一步努力以完全自动化的方式加速de novo药物设计。分子生成的这些进展也预示着相关问题(如逆合成)的前景广阔,随着友好和易于使用的自动化工具的发展,化学家和计算机技术人员的协同工作将进一步促进未来的药物发现。

参考文献

文章地址

Yu Cheng, Yongshun Gong, Yuansheng Liu, Bosheng Song, Quan Zou, Molecular design in drug discovery: a comprehensive review of deep generative models, Briefings in Bioinformatics, 2021;, bbab344,

https://doi.org/10.1093/bib/bbab344

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档