前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | AGBT:将图和双向transformers融合的分子性质预测新工具

Nat. Commun. | AGBT:将图和双向transformers融合的分子性质预测新工具

作者头像
DrugAI
发布2021-09-17 11:45:58
1.2K0
发布2021-09-17 11:45:58
举报
文章被收录于专栏:DrugAIDrugAI

今天介绍的 是北京大学深圳研究生院与密歇根州立大学合作发表在Nature Communications的一篇文章。

分子性质预测对药物开发、人类健康和环境保护具有重要意义,然而各种分子性质的定量预测仍然是一个挑战。本文通过融合代数图和双向Transformer生成的表示,以及各种机器学习算法,包括决策树、多任务学习和深度神经网络,提出了代数图辅助的双向Transformer(AGBT)框架。并在八个涉及定量毒性、物理化学性质和生理性质的分子数据集上验证了该框架。大量的数值实验表明,AGBT是一种先进的分子性质预测框架。实现了基于小样本数据有效地定量预测分子特性。

1

介绍

从2019年新冠肺炎疫情爆发至今已有一年多,而世界还没有研发出针对新冠病毒的特效药物,这一事实提醒我们,药物发现仍然是一个巨大的挑战。合理的药物发现涉及到一系列的分子性质,包括结合亲和力、毒性、分配系数、溶解度、药动学、药效学等。分子性质的实验测定非常耗时和昂贵,因此需要不断地发展省时省钱而又兼具准确性的计算机辅助药物设计。其中最流行的方法之一是定量构效关系分析(QSAR),其思想是假定相似的分子具有相似的生物活性和物理化学性质。

目前包括深度学习(DL)在内的机器学习已经成为分子科学数据驱动发现的一种强有力的方法。例如,图形卷积网络(GCNs)、卷积神经网络(CNNs)和递归神经网络(RNNs)已经广泛应用于药物发现和分子分析。生成对抗网络(GANs)与一些机器学习策略(如监督学习和强化学习)相结合也被应用于新分子的生成和药物设计。然而,DL方法需要较大的数据集来确定其大量的权重,在较小的数据集上它的竞争力就小了。

尽管CNN和GANs等DL方法可以从简单的数据(如图像和/或文本)中自动提取特征,但由于分子(特别是大分子)结构的复杂,方法性能的好坏取决于分子表示。在过去的几十年中已经开发了各种指纹,然而,二维指纹缺乏分子的三维结构信息,尤其是立体化学描述。为此,研究者们开发了基于3D结构的指纹来捕捉分子的3D模式。然而,分子结构的复杂性和高维性是设计高效3D指纹的主要障碍。最近,基于高等数学的各种三维分子表示被提出,这些方法在蛋白质分类、溶解度、毒性、分配系数等上的预测取得了巨大成功。然而,这种方法依赖于可靠的3D分子结构的可用性。

另一种表示方法是用自监督学习(SSL)策略来预训练编码器模型,在没有3D分子结构的情况下,该编码器模型可以产生潜在空间向量作为分子表示。然而,潜在空间表示忽略了许多立体化学信息,例如二面角和手性。此外,潜在空间表征缺乏关于特定任务性质的特定物理和化学知识。例如,在许多药物相关的性质中,范德华相互作用可以发挥比共价相互作用更大的作用,在描述这些性质时需要加以考虑。

本文用AGBT来构造分子表示,结合了3D特定元素的加权彩色代数图和深度双向transformers(DBT)的优点。特定于元素的加权彩色代数图产生低维分子表示(该代数图将互补的三维分子信息嵌入到图的不变量中),称为基于代数图的指纹(AG-FP),它显著降低了分子结构的复杂性,同时基本上保留了物理/化学信息。DBT利用基于SSL的预训练过程从大量未标记的SIMLES数据中学习基本构成原理,并通过微调,使用特定于任务的数据进一步训练模型。由此产生的分子指纹,称为基于双向transformer的指纹(BT-FP),是DBT的潜在空间向量。

2

结果

本文介绍了AGBT模型及其在八个数据集LD50、IGC50、LC50、LC50DM、partition coefficient(分配系数)、FreeSolv、Lipophilicity(亲脂性)和BBBP上的分子预测结果。作者在预训练中使用了CheMBL数据集。

AGBT

如图1所示, AGBT由四个主要模块组成:AG-FP生成器(即蓝色矩形)、BT-FP生成器(即橙色矩形)、基于随机森林(RF)的特征融合模块(即绿色矩形)和下游机器学习模块(即粉红色矩形)。对于图指纹的生成,文章使用特定于元素的多尺度加权彩色代数图,将化学和物理相互作用编码为图不变量,并捕获三维分子结构信息。BT-FP分两个步骤创建:基于SSL的预训练步骤。包含大量未标记的输入数据;基于特定任务的微调步骤。微调步骤可以通过两种方式执行:第一种方法只是采用相同的SSL过程来微调模型。

此外,模型融合了随机森林算法来对的AG-FP和BT-PF特征的重要性进行排序,并选择固定组件数量的最佳AGBT-FP集合。下游的机器学习算法被馈送最优的特征,以在四个基准毒性数据集上获得最佳性能。此外,还使用了梯度增强决策树(GBDT)、随机森林(RF)和深度神经网络(DNN),包括单任务DNN(ST-DNN)和多任务DNN(MT-DNN)来执行最终预测。

用平方皮尔逊相关系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)来评价回归任务的性能,用分类精度和AUC-ROC来评价分类模型的性能。

图1 AGBT模型

毒性预测

毒性是药物先导优化中需要考虑的一个关键问题,它衡量一种化合物对生物体产生不利影响的程度。

LC50DM集是指可导致50%的大型蚤在48小时后死亡的水中的测试化学物质的浓度,它是相关四个数据集里最小的一个。为解决模型规模较小而导致预测模型难以训练的问题(如描述符过多导致过拟合)。本文应用MT-DNN,从具有一定统计分布的数据集中提取信息,有效地提高了模型的预测能力,避免了对小数据集的过度拟合。结果如图2b所示,在LC50DM集上本文模型的性能最好,R2=0.830,均方误差=0.743。

图2 AGBT框架和性质预测结果

口服大鼠LD50集衡量的是口服时可杀死一半大鼠的化学物质的浓度。这个数据集是相关四个集合中最大的一个集合,导致因为集合中值的跨度大使得预测相对困难。如表1所示,所有现有方法的R2值都在0.392到0.643之间,而本文的方法可以达到0.671。

表1 在六个数据集上将最佳表现与发表的已知分数进行比较

FreeSolv和亲脂性预测

该项预测可以了解分子与溶剂相互作用的基本物理化学性质。如表2所示,对于FreeSolv和亲脂性数据集,最好的结果都产生在融合的描述符上,这说明代数图确实对分子性质预测有重要影响。

表2 AGBT 框架在八个数据集上生成的描述符的性能

分配系数预测

分配系数表示为P,是物质在两种相互不溶的溶剂(本文是辛醇和水)中的平衡状态下的浓度之比,可以用于衡量化合物的药物相关性及其对人体的疏水性。该系数的对数表示为logP。用美国食品药品监督局(FDA)批准的一组406个分子作为测试。表1列出了FDA分子数据集在不同预测方法上比较。可以看出,本文的R2达到了最高值0.905。

血脑屏障通透性 (BBBP)二元标记物的分类任务

本文采用化合物通透性的二元标记法。为了更好地进行比较,数据集的训练、验证和测试集划分比例为8:1:1。如表1所示,本文的方法获得了最佳AUC-ROC值0.763。

3

方法

基于代数图的分子指纹 (AG-FPs)

图3a显示的是2-三氟乙酰的分子结构,如图3b所示,分子中原子之间的联系可以用图来表示。元素特定的多尺度加权彩色图表示可以定量地捕捉不同化学方面的模式,例如不同原子之间的范德华相互作用和氢键。图3c显示图通过使用彩色顶点来捕捉元素信息,并且不同的边对应于分子中不同的成对相互作用。对于给定的分子使用所选的原子坐标子集作为顶点来构建元素特定的彩色子图。如图3d所示,将彩色图分解为特定于元素的CC、FO和CH子图的过程,其中元素指的是本研究中的化学元素,例如H、C、N。此外,代数图特征可以从图拉普拉斯和/或邻接矩阵的特征值的统计中获得,如图3e所示。

图3 加权彩色元素特定代数图

双向transformer指纹(BT-FP)

深度双向transformer(DBT)基于注意力机制,在海量数据的情况下能够减少训练时间。BERT是基于DBT体系结构的表示模型,涉及到两个任务,遮盖语言学习和连续句分类。遮盖语言学习使用部分掩蔽的句子(即词)作为输入,并使用其他词来预测掩蔽的词,连续句分类是对两个句子是否连续进行分类。本文的DBT的输入是分子SMILES串。与传统的用于自然语言处理的BERT中的句子不同,不同分子的SMILES串没有逻辑上的联系。本文训练来自transformer的双向编码器来恢复被掩蔽的原子或官能团。

如图2所示,可以得出,AG-FP和BT-FP的融合提高了大多数数据集的预测精度和稳定性。基于数学的分子描述符可以补充数据驱动的潜在空间描述符。

参考资料

Chen, D., Gao, K., Nguyen, D. D., Chen, X., Jiang, Y., Wei, G. W., & Pan, F. (2021). Algebraic graph-assisted bidirectional transformers for molecular property prediction. Nature Communications, 12(1), 1–9. https://doi.org/10.1038/s41467-021-23720-w

论文链接:

https://www.nature.com/articles/s41467-021-23720-w

代码链接:

https://github.com/ChenDdon/AGBTcode52

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档