业界 | 谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。

为了能够扩大搜索能力,AI科技评论了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,Jörg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上,谷歌研究院在QM9基准数据集(配有DFT计算的电子,热力学和振动性质的分子集合)上应用了各种机器学习方法。

谷歌研究院发布了两篇论文,介绍了他们在这一领域的研究,研究工作由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔大学合作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响,模型用于构建有机分子的十三个基态电子性质,每个回归/表征/性质组合的性能通过学习曲线评估,该曲线描绘近似误差,以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法,并集中改进最有希望的深层神经网络模型。

第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络(MPNN)的模型族,将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体,性能明显优于QM9基准测试的所有基准测试方法,另外某些目标的性能改进了近四倍。

从机器学习的角度来看,分子数据之所以有趣,原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化,这很容易理解,卷积神经网络在图像识别上之所以成功,一部分原因是模型能够记住图像数据中的一些不变性知识,比如把一种图片中的狗挪到图片左边还是一张狗的照片)。 图形对称性这一固有特征是机器学习处理图像数据非常理想的性质,在这领域也有许多有趣的研究,例如Yujia Li等研究了结构化图片的特征学习技巧,David Duvenaud等应用图像神经网络学习分子指纹信息,Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展,谷歌研究院希望找到化学(和其他)应用模型的最佳版本,并找出文献中提到的不同模型之间的联系。

谷歌研究院提出的MPNN模型提高了QM9数据集任务(预测所有13种化学性质)的最好性能,在这个特定的数据集上,他们的模型可以准确地预测13种性质中的11个,这样的预测性能已经足够准确,能对化学家未来的应用有帮助。另外,此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上,MPNN模型必须应用于比QM9数据更多样化的分子集合(例如数目更大,变化更大的重原子集合)。当然,即使有了更真实的数据集,模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题,例如泛化。

预测分子性质是一个非常重要的问题,它既是先进的机器学习技术的应用场景,也为机器学习带来了非常有趣的基础研究课题。最后,分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果,帮助其他研究者学习机器学习应用都是及其重要的。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码云1024

入坑机器学习,你首先得知道这十个知识点...

编者按:本文由微信公众号“将门创投”(ID:thejiangmen)编译,来源:Medium,编译:Tom R。

44614
来自专栏AI科技评论

大牛讲堂 | 深度学习Sequence Learning技术分享

雷锋网按:本文作者都大龙,2011年7月毕业于中科院计算技术研究所;曾任百度深度学习研究院(IDL)资深研发工程师,并连续两次获得百度最高奖—百万美金大奖;现在...

2936
来自专栏人工智能头条

时尚网站吉尔特(GILT)中的深度学习

1193
来自专栏企鹅号快讯

康奈尔博士后黄高:如何设计高效地卷积神经网络

AI 科技评论按:卷积神经网络则是深度学习最具代表性的模型,在计算机视觉和自然语言翻译等领域有着极其广泛的应用。随着精度以及复杂度的逐步提升,卷积网络的推理效率...

2956
来自专栏专知

瑟瑟发抖……神经网络可能在欺骗你!

【导读】你对神经网络的信任度有多高?它总能学习到你想让他学习的东西吗?你真的敢坐在一辆自动驾驶的汽车上吗?我曾经也对神经网络充满了“崇拜”和信任,直到我亲眼看见...

1133
来自专栏AI科技大本营的专栏

一文讲述如何将预测范式引入到机器学习模型中

本文构建了一个在视觉条件下以感官信息作为输入的预测模型。由于无法准确建立感官信息的运动方程,只能通过机器学习来完成。

44616
来自专栏机器之心

ICLR 2018 | 斯坦福大学教授Christopher Manning提出全可微神经网络架构MAC:可用于机器推理

选自arXiv 作者:Drew A. Hudson、Christopher D. Manning 机器之心编译 参与:刘天赐、黄小天 现今,神经网络已在图像识别...

2878
来自专栏SimpleAI

错看一头大象后,这个AI“疯了”!

在一项新的研究中,计算机科学家发现,人工智能无法通过儿童可轻松完成的“视力检测”。

592
来自专栏新智元

【DeepMind重大突破】DNN具有人类行为,认知心理学破解黑箱

【新智元导读】DeepMind 的最新论文称自己“首次”将认知心理学方法引入了对深度神经网络黑箱的理解研究中,并用认知心理学的方法发现了深度神经网络存有和人类儿...

3265
来自专栏AI科技评论

干货 | 康奈尔博士后黄高:如何设计高效地卷积神经网络

AI 科技评论按:卷积神经网络则是深度学习最具代表性的模型,在计算机视觉和自然语言翻译等领域有着极其广泛的应用。随着精度以及复杂度的逐步提升,卷积网络的推理效率...

38411

扫码关注云+社区