前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Mach. Intell. | MolCLR:一个用于分子表征学习的自监督框架

Nat. Mach. Intell. | MolCLR:一个用于分子表征学习的自监督框架

作者头像
DrugAI
发布于 2022-03-25 05:55:50
发布于 2022-03-25 05:55:50
4750
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 王勤玉

今天介绍的是卡内基梅隆大学化学工程系的Amir Barati Farimani 教授最新发表在 Nature Machine Intelligence上的文章 ”Molecular contrastive learning of representations via graph neural networks”. 该文提出一种自监督的图神经网络框架MolCLR,利用大量无监督的标签进行自监督学习,有效缓解了因为数据标记有限而阻碍将分子机器学习推广到巨大的化学空间的难题。同时,本文提出了三种全新的分子图的增强方法:原子屏蔽、键删除以及子图删除,所提的分子图增强方法保证了增强时同一分子的一致性最大化以及不同分子一致性的最小化。实验表明,MolCLR 大大改善了 GNN 在各种分子特性基准上的表现。

研究现状

分子表征是设计功能性和新型化合物的基础和必要条件,由于可能的稳定化合物数量巨大,开发一个信息丰富的表征模型来概括整个化学空间是一个巨大挑战。传统的分子表征,如扩展连接性指纹(ECFP)已经成为计算化学的标准工具。最近﹐随着机器学习方法的发展﹐数据驱动的分子表征学习及其应用越来越被重视(如化学性质预测、化学建模、和分子设计)。然而,由于以下三个主要的挑战﹐导致学习这样的表征很困难:

  1. 很难彻底表达分子信息。 例如基于字符串的表示法,如SMILES和SELFIES,不能直接编码重要的拓扑信息,为了保留丰富的结构信息﹐最近的许多工作利用图神经网络(GNNs)。
  2. 化学空间的规模是巨大的。 例如,潜在的药理活性分子的大小估计在数量级。 这给任何分子表征在潜在的化合物中进行概括带来了很大的困难。
  3. 分子学习任务的标签数据很昂贵,且远远不够﹐特别是与潜在的化学空间的大小相比,获得分子属性的标签通常需要昂贵的成本。 大多数分子学习基准中的标签数量是远远不够的,在这样有限的数据上训练的机器学习模型很容易过拟合。

MolCLR框架概述

本文提出的MolCLR通过图神经网络对表征进行分子对比学习,以解决上述挑战。MolCLR是一个自监督的学习框架,它是在具有1千万个独特分子的大型无标记分子数据集上训练出来的。通过对比损失,MolCLR通过对比积极的分子图对和消极的分子图对来学习表示。引入了三种分子图的增强策略:原子屏蔽、键删除和子图删除。广泛使用的GNN模型、图卷积网络(GCN)和图同构网络(GIN),被开发为MolCLR中的GNN编码器,以从分子图中提取信息表示。然后在MoleculeNet的下游分子特性预测基准上对预训练的模型进行微调。与通过监督学习训练的GCN和GIN相比,本文所提的MolCLR明显提高了分类和回归任务的性能。受益于对大型数据库的预训练,MolCLR在多个分子基准测试中超过了其他自监督学习和预训练策略。此外,在一些任务上,MolCLR可以与监督学习的基准线相媲美,甚至超过了监督学习,其中包括复杂的分子图卷积操作或特定领域的特征化。MolCLR表示法和传统的FPs之间的进一步比较表明,MolCLR可以通过对大量未标记数据的预训练来学习区分分子的相似性。

图1. MolCLR概述图

分子图增强方法

原子屏蔽(Atom Masking)分子图中的原子以给定的比例被随机屏蔽。当一个原子被遮蔽时,它的原子特征被一个掩码标记 取代,该标记与图1(b)中红框所示的分子图中的任何原子特征相区别。通过屏蔽,模型被迫学习内在的化学信息(比如由某些共价连接的原子的可能类型)。

键删除(Bond Deletion)如图1(b)中的黄色方框所示, "键删除"以一定比例随机删除原子之间的化学键。与原子屏蔽方法中用掩码标记替代原始特征的原子掩码不同,键删除是一种更严格的增强,因为它从分子图中完全删除了边缘。原子之间化学键的形成和断裂决定了化学反应中分子的属性。键的删除模拟了化学键的断裂,促使模型学习一个分子在各种反应中的关联性。

子图删除(Subgraph Removal)子图删除可以被认为是原子屏蔽和键删除的结合。子图的去除从一个随机挑选的原点开始。去除过程通过屏蔽原原子的邻域,然后是邻域的邻域,直到被屏蔽的原子数量达到原子总数的一定比例。然后,被屏蔽的原子之间的化学键被删除,这样被屏蔽的原子和被删除的化学键就形成了原分子图的子图。如图1(b)中的蓝色方框所示,被移除的子图包括被遮蔽原子之间的所有化学键。通过匹配被移除的不同子结构的分子图,该模型学会了在剩余的子图中找到显著特征,这在很大程度上决定了分子的特性。

图2. 基于分类基准的分子图增强的研究。

总结

通过MolCLR学习的分子表征证明了在数据有限的情况下对分子任务的可转移性以及在大的化学空间中的概括能力。此外,自监督学习的表征可视化和解释也很有意义。这样的研究可以帮助研究人员更好地理解化合物并有利于药物的发现。

参考资料

Wang, Y., Wang, J., Cao, Z. et al. Molecular contrastive learning of representations via graph neural networks. Nat Mach Intell (2022).

https://doi.org/10.1038/s42256-022-00447-x

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MG-BERT:利用无监督原子表示学习来预测分子性质
今天给大家介绍一篇来自浙江大学侯廷军教授课题组和中南大学曹东升教授课题组合作发表在2021年5月份发表在Briefings in Bioinformatics上的一篇文章《MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction》。本文使用了无监督原子表达学习来进行分子的性质预测。
DrugAI
2021/07/28
1.4K0
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
在化学分子数据集中,有大量的未标记数据,而标记数据的比例相对较小。缺乏标签限制了监督学习方法的在分子性质预测任务上的直接适用性。自监督学习(SSL)使模型能够从未标记的数据中学习,在分子性质预测领域得到了广泛的关注。对比学习(CL)作为一种有效的SSL范式,在各个领域都表现出卓越的能力,现有的许多分子表示的CL方法采用不同的策略来提高预测精度。然而,这些方法可能会遇到表征之间的信息重叠,潜在地限制了模型学习能力的增强,缺乏基于已建立的先验知识生成增强表示的鲁棒策略。
智药邦
2024/11/13
1590
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
Brief Bioinform|FG-BERT:基于官能团的通用自监督分子表示学习与性质预测框架
2023年11月2日,华南理工大学王领老师团队在Briefings in Bioinformatics上发表文章FG-BERT: a generalized and self-supervised functional group-based molecular representation learning framework for properties prediction。
智药邦
2024/03/05
3330
Brief Bioinform|FG-BERT:基于官能团的通用自监督分子表示学习与性质预测框架
Research | 使用无监督学习、多任务学习的分子性质预测新方法
2022年12月15日,中南大学湘雅药学院曹东升团队,国防科技大学吴诚堃团队,浙江大学侯廷军团队以及湖南大学曾湘祥教授团队合作在Research期刊上发表论文“Pushing the Boundaries of Molecular Property Prediction for Drug Discovery with Multitask Learning BERT Enhanced by SMILES Enumeration”。
DrugAI
2023/02/17
1.1K0
Research | 使用无监督学习、多任务学习的分子性质预测新方法
Nat. Mach. Intell. | 由数据和知识驱动的基于结构的分子生成模型
今天为大家介绍的是来自Shengyong Yang团队的一篇论文。基于深度学习的分子生成技术在许多领域都有广泛的应用,尤其是在药物发现中。然而,目前大多数深度生成模型都是基于配体的,并没有在分子生成过程中考虑化学知识,这通常导致较低的成功率。在这里,作者提出了一个基于结构的分子生成框架,它明确考虑了化学知识(命名为PocketFlow),能够在蛋白质结合口袋内生成新的配体分子。
DrugAI
2024/03/27
6690
Nat. Mach. Intell. | 由数据和知识驱动的基于结构的分子生成模型
J. Med. Chem. | 融合通用知识与领域知识的多任务图变换器用于分子性质预测
药物研发一直是科学界最具挑战的领域之一。面对着多个目标的优化需求,如药物的吸收、分布、代谢、排泄(ADMET)等,传统方法往往受限于数据稀缺性和模型迁移性。近期,中南大学曹东升和湖南大学曾湘祥的研究团队在Journal of Medicinal Chemistry发表了一篇题为“MPCD: A Multitask Graph Transformer for Molecular Property Prediction by Integrating Common and Domain Knowledge”的论文,为分子属性预测领域带来全新视角。
DrugAI
2024/12/20
1220
J. Med. Chem. | 融合通用知识与领域知识的多任务图变换器用于分子性质预测
Nat Commun|知识引导的分子表示学习预训练框架
2023年11月21日,清华大学曾坚阳教授(西湖大学教授)、赵诞老师团队,在Nature Communications上发表文章A knowledge-guided pre-training framework for improving molecular representation learning。
智药邦
2024/03/05
2230
Nat Commun|知识引导的分子表示学习预训练框架
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/08
7590
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
Nat.Mach.Intell | ImageMol: 精准预测分子性质和药物靶标的自监督学习框架
近日,湖南大学DrugAI实验室在Nature子刊《Nature Machine Intelligence》上发表名为”Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework”的研究论文,提出了一种全新的分子表征框架——基于分子图像的自监督深度学习框架ImageMol。它通过在1000万个未标记的类药生物活性分子上进行预训练,实现了对分子性质和药物靶标的准确预测,开创了分子表征学习的新范式。
DrugAI
2022/11/28
5990
Nat.Mach.Intell | ImageMol: 精准预测分子性质和药物靶标的自监督学习框架
百度计算生物研究登上Nature子刊!将3D结构引入分子表征,结果超越斯坦福MIT,已落地制药领域
杨净 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 百度新研究,登上了Nature子刊。 科技公司卷到学术圈顶刊上不算稀奇。 但这次有点不同寻常。 研究领域与生物领域直接相关,接收该论文的期刊Nature Machine Intelligence(NMI),影响因子达到了16.649。 除了专业度保障,研究的实验结果也超越MIT斯坦福。 而且更关键的在于,跟后者大部分“产学研”模式不同。 百度是实打实自己独立搞出来的—— 作者全部来自螺旋桨PaddleHelix,百度生物计算团队。 嗯,还是可复现
量子位
2022/03/04
5230
Nat. Mach. Intell. | 利用几何构象提升化合物分子建模效果
近日,百度在国际顶级期刊《Nature》旗下子刊 《Nature Machine Intelligence》(Impact score 16.65)上发表了AI+生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出“基于空间结构的化合物表征学习方法”,即“几何构象增强AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),揭示了一种基于三维空间结构信息的化合物建模方法,以及在药物研发中的应用。
DrugAI
2022/03/25
4620
Nat. Mach. Intell. | 利用几何构象提升化合物分子建模效果
Bioinformatics|MoleMCL:分子预训练的多层次对比学习框架
2024年3月26日,厦门大学刘向荣教授团队在Bioinformatics上发表文章MoleMCL: a multi-level contrastive learning framework for molecular pre-training。
智药邦
2024/05/17
3290
Bioinformatics|MoleMCL:分子预训练的多层次对比学习框架
图学习+分子表示学习,飞桨刷新药物分子性质预测榜单
化合物的生物活性筛选是现代药物研发中关键的一环,其主要目的是在大量候选化合物中发现针对某种药物靶点具有活性的分子。传统的活性筛选方法需要合成大量化合物用以进行生物实验,整个流程的成本高、周期长、成功率低。而通过 AI 技术进行药物的虚拟筛选有望代替传统的活性筛选方法,加速中间步骤从而大幅度降低研发成本。
机器之心
2021/03/30
4210
图学习+分子表示学习,飞桨刷新药物分子性质预测榜单
Nat. Mach. Intell. | 通过语言模型在口袋中生成三维分子结构
今天为大家介绍的是来自Bo Huang和Wenbiao Zhou团队的一篇论文。基于序列或图表示的分子生成模型,在基于结构的药物设计领域越来越受到关注。然而,这些模型往往难以捕捉重要的三维(3D)空间交互作用,并常常生成不理想的分子结构。为了解决这些挑战,作者提出了一种新方法——Lingo3DMol,这是一种基于口袋的3D分子生成方法,结合了语言模型和几何深度学习技术。
DrugAI
2024/03/04
3520
Nat. Mach. Intell. | 通过语言模型在口袋中生成三维分子结构
分子表征从「图」到「视频」,1.2亿帧、200万分子,湖大分子视频基础模型登Nature子刊
两年前,湖南大学和美国的研究团队,开发了具有化学意识的深度学习框架 ImageMol,用于从大规模分子图像中学习分子结构,可准确预测分子特性和药物靶点。
DrugAI
2024/11/23
1080
分子表征从「图」到「视频」,1.2亿帧、200万分子,湖大分子视频基础模型登Nature子刊
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
2022年9月17日,华南理工大学王领老师团队[1]在Briefings in Bioinformatics上发表文章。作者提出了FP-GNN,一种基于分子指纹(fingerprint,FP)和图神经网络(graph neural networks,GNN)的分子性质预测模型,结合了分子指纹表示和基于图神经网络的分子图表示。
智药邦
2022/11/16
3.4K0
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章“Drug discovery with explainable artificial intelligence”。本文综述总结了可解释人工智能最突出的算法概念,并预测了未来的机会、潜在的应用以及一些剩余的挑战。希望能为可解释人工智能技术的发展和接受做出更多的努力。
DrugAI
2021/02/02
7290
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
Nat. Mach. Intell. | 分子表征的几何深度学习
本文介绍由瑞士苏黎世联邦理工学院化学与应用生物科学系的Francesca Grisoni和Gisbert Schneider共同通讯发表在 Nature Machine Intelligence的研究成果:本文作者重点介绍了几何深度学习在药物发现、化学合成预测和量子化学等领域的应用,其包含几何深度学习的原理和相关的分子表征,例如分子图、网格、表面和字符串。作者讨论了分子科学中几何深度学习面临的挑战,并展望其未来应用。
DrugAI
2021/12/29
7370
Nat. Mach. Intell. | 分子表征的几何深度学习
基于化学元素知识图的分子对比学习
本文介绍一篇来自浙江大学计算机科学系、杭州创新中心、杭州西湖生命科学与生物医学实验室等联合发表的文章。该文章构建了一个化学元素知识图(KG)来总结元素之间的微观联系,并提出了一个用于分子表征学习的知识增强对比学习(KCL)框架。KCL由三个模块组成。第一个模块是知识引导图增强,对原有的基于化学元素KG的分子图进行扩充。第二个模块是知识感知图表示,对原始分子图使用通用图编码器来提取分子的表示,并使用知识感知消息传递神经网络(Knowledge-aware Message Passing Neural Network, KMPNN)对增强分子图中的复杂信息进行编码。最后一个模块是一个对比目标,以最大化分子图的这两种视图之间的一致性。
DrugAI
2021/12/22
5550
基于化学元素知识图的分子对比学习
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
机器之心发布 机器之心编辑部 近日,百度在国际顶级期刊《Nature》旗下子刊 《Nature Machine Intelligence》(Impact score 16.65)上发表了 AI + 生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出 “基于空间结构的化合物表征学习方法”,即 “几何构象增强 AI 算法”(Geometry Enhanced Molecular R
机器之心
2022/03/04
3320
推荐阅读
MG-BERT:利用无监督原子表示学习来预测分子性质
1.4K0
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
1590
Brief Bioinform|FG-BERT:基于官能团的通用自监督分子表示学习与性质预测框架
3330
Research | 使用无监督学习、多任务学习的分子性质预测新方法
1.1K0
Nat. Mach. Intell. | 由数据和知识驱动的基于结构的分子生成模型
6690
J. Med. Chem. | 融合通用知识与领域知识的多任务图变换器用于分子性质预测
1220
Nat Commun|知识引导的分子表示学习预训练框架
2230
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)
7590
Nat.Mach.Intell | ImageMol: 精准预测分子性质和药物靶标的自监督学习框架
5990
百度计算生物研究登上Nature子刊!将3D结构引入分子表征,结果超越斯坦福MIT,已落地制药领域
5230
Nat. Mach. Intell. | 利用几何构象提升化合物分子建模效果
4620
Bioinformatics|MoleMCL:分子预训练的多层次对比学习框架
3290
图学习+分子表示学习,飞桨刷新药物分子性质预测榜单
4210
Nat. Mach. Intell. | 通过语言模型在口袋中生成三维分子结构
3520
分子表征从「图」到「视频」,1.2亿帧、200万分子,湖大分子视频基础模型登Nature子刊
1080
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
3.4K0
Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现
7290
Nat. Mach. Intell. | 分子表征的几何深度学习
7370
基于化学元素知识图的分子对比学习
5550
“几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
3320
相关推荐
MG-BERT:利用无监督原子表示学习来预测分子性质
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文