MIT研究:机器学习模型可以帮助化学家以更快的速度制造出更高效的分子

AiTechYun

编辑:chux

为药物设计新分子需要手动,且耗时,容易出错。但麻省理工学院的研究人员现在已朝着完全自动化设计过程迈出了一步,这可以大大加快速度,并产生更好的结果。

药物发现依赖于铅优化。在这个过程中,化学家选择具有已知潜力的目标(“铅”)分子来对抗特定疾病,然后调整其化学特性以获得更高的效力和其他因素。

通常,化学家使用专家知识并对分子进行手动调整,逐一添加和减去官能团,即负责特定化学反应的原子和键。即使他们使用预测最佳化学性质的系统,化学家仍然需要自己进行每个修改步骤。每次迭代可能需要数小时,并且可能仍然无法产生有效的候选药物。

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)和电气工程与计算机科学系(EECS)的研究人员已经开发出一种模型,可以根据所需的特性更好地选择候选铅分子。它还修饰了获得更高效力所需的分子结构,同时确保分子仍具有化学有效性。

该模型主要作为输入分子结构数据,直接创建分子图的分子结构的详细表示,节点代表原子和边缘表示化学键。它将这些图形分解成更小的有效功能组群,并将其作为构建块,帮助它更准确地重构和更好地修改分子。

“这背后的动机是用自动迭代取代设计分子的低效人工修饰过程,并确保我们生成的分子的有效性,”该论文的主要作者,CSAIL的博士生Wengong Jin表示道。论文描述了正在进行的模型,于7月在2018年国际机器学习大会上发表。

其他研究者包括Regina Barzilay,CSAIL和EECS的Delta Electronics教授和Tommi S. Jaakkola , CSAIL,EECS的电子工程和计算机科学以及数据,系统和社会研究所的Thomas Siebel教授。

该研究是作为麻省理工学院与八家制药公司之间组成的Machine Learning for Pharmaceutical Discovery and Synthesis Consortium的一部分进行的,该研究于5月宣布启动。该联盟将铅优化确定为药物发现的一个关键挑战。

“这需要很多熟练的化学家才能取得成功,而这就是我们想要改进的东西,”Barzilay说。“下一步是将学术界的这项技术用于真正的药物设计案例,并证明它可以帮助人类化学家完成他们的工作,这可能具有挑战性。”

“自动化流程也带来了新的机器学习挑战,”Jaakkola表示。“学会联系,修改和生成分子图表可以推动新的技术思想和方法。”

生成分子图

近年来,试图使分子设计自动化的系统出现了,但它们的问题是有效的。Jin说,这些系统经常产生在化学规则下无效的分子,并且它们不能产生具有最佳性质的分子。这实质上使分子设计的完全自动化变得不可行。

这些系统以分子的线性符号运行,称为“简化的分子输入线路入口系统(SMILES)”,其中长串的字母,数字和符号代表可由计算机软件解释的单个原子或键。当系统修改铅分子时,它通过符号,原子逐个扩展其字符串表示符号,并通过键合扩展,直到它生成具有所需属性的更高效力的最终SMILES字符串。最后,系统可能会生成一个最终的SMILES字符串,该字符串在SMILES语法下看似有效,但实际上是无效的。

研究人员通过构建直接在分子图上运行的模型来解决这个问题,而不是SMILES字符串,可以更有效和准确地修改。

为模型供电是一种自定义变量自动编码器,一种将输入分子“编码”成矢量的神经网络,该矢量基本上是分子结构数据的存储空间,然后将该矢量“解码”为与输入分子匹配的图形。

在编码阶段,模型将每个分子图分解为聚类或“子图”,每个聚类代表一个特定的构建块。这些集群是通过一种常见的机器学习概念自动构建的,称为树分解,其中复杂的图形被映射到集群的树结构,这给出了原始图形的支架。

支架树结构和分子图结构都被编码到它们自己的载体中,其中分子通过相似性组合在一起。这使得查找和修改分子变得更容易。

在解码阶段,模型以“粗到细”的方式重建分子图,逐渐增加低分辨率图像的分辨率以创建更精细的版本。它首先生成树形结构的支架,然后将相关的聚类(树中的节点)组合成一个连贯的分子图。这确保了重建的分子图是原始结构的精确复制。

对于铅优化,模型然后可以基于期望的性质修改铅分子。它借助于预测算法来实现,该算法使每个分子具有该特性的效能值。例如,在该论文中,研究人员寻求具有两种性质组合的分子:高溶解度和合成可及性。

给定所需的性质,该模型通过使用预测算法来修改其载体,并因此通过编辑分子的官能团以实现更高的效力评分来优化铅分子。它重复此步骤进行多次迭代,直到找到最高的预测效力得分。然后,模型最终通过编译所有相应的簇,从更新的矢量中解码出具有修改结构的新分子。

有效且更强力

研究人员用ZINC数据库中的250,000个分子图进行了模型训练,这是一组可供公众使用的三维分子结构。他们在任务上测试模型以生成有效分子,找到最佳铅分子,并设计具有增加效力的新分子。

在第一次测试中,研究人员的模型从样本分布中产生了100%化学有效分子,而SMILES模型则从同一分布中产生了43%的有效分子。

第二项测试涉及两项任务。首先,该模型搜索了整个分子集合,找到了所需特性的最佳铅分子:溶解度和合成可及性。在该任务中,该模型发现了一种比传统系统高30%的铅分子。第二项任务涉及修改800个分子以获得更高的效力,但结构上与铅分子相似。在这样做时,该模型创造了新的分子,与铅的结构非常相似,平均效力提高了80%以上。

研究人员接下来的目的是测试该模型的更多性质,超出溶解度,这是更具治疗相关性。但是,这需要更多数据。Jin指出,“制药公司更感兴趣的是与生物目标作斗争的特性,但数据却较少。因此,面临的挑战是开发一个可以使用有限数量训练数据的模型。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-07-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

百度ICML论文:如何用一种算法同时解决中英两种语言的语音识别需求

论文作者:Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper...

44512
来自专栏AI2ML人工智能to机器学习

R语言和表数据分析

最近几年, 对于表数据分析有一些常见的问题, 譬如: 缺失值(Missing), 奇异值(Outlier)(参考 “一个奇异值的江湖 -- 经典统计观” 和 “...

701
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(21-22讲)

1653
来自专栏PPV课数据科学社区

【学习】怎样分析样本调研数据

从一个群体样本中获取群体的整体特征是许多研究设计和统计方法发展的基础。根据数据收集的算法、调研问题的类型和调研的目标,分析样本调研数据的方法各不相同。这篇文章会...

4217
来自专栏编程

7步让你从零开始掌握Python机器学习!

这篇文章旨在通过7个步骤,将最少的机器学习知识转化为知识型实践者,所有这一切都在使用免费的材料和资源。这个大纲的主要目标是帮助你通过许多可用的免费选项; 有很多...

2189
来自专栏IT派

7步让你从零开始掌握Python机器学习!

这篇文章旨在通过7个步骤,将最少的机器学习知识转化为知识型实践者,所有这一切都在使用免费的材料和资源。这个大纲的主要目标是帮助你通过许多可用的免费选项; 有很多...

3584
来自专栏数据魔术师

干货 | 变邻域搜索算法(Variable Neighborhood Search,VNS)超详细一看就懂

3.6K8
来自专栏AI研习社

从莫扎特到披头士,Facebook 新 AI 轻松转换音乐风格

想象一下:你的朋友几周来一直在唠叨你听一首歌,尽管你已经告诉他你不喜欢 Ed Sheeran。 他们继续纠缠你,声称“旋律是伟大的”。 如果只有你能听到文明形式...

1533
来自专栏杨熹的专栏

David Silver深度强化学习第1课

强化学习-1.jpg 强化学习本质上是要找到一种最优的方式来做决策。 强化学习涉及到很多学科领域,例如它是计算机科学中机器学习的一部分,工业中的优化控制,还有模...

3245
来自专栏企鹅号快讯

7步让你从零开始掌握Python机器学习!

这篇文章旨在通过7个步骤,将最少的机器学习知识转化为知识型实践者,所有这一切都在使用免费的材料和资源。这个大纲的主要目标是帮助你通过许多可用的免费选项; 有很多...

24410

扫码关注云+社区

领取腾讯云代金券