业界 | 谷歌研究院在化学发力:应用机器学习技术预测分子性质

最近,机器学习在化学领域的应用有很大进展,特别是化学搜索问题,从药物筛选、电池设计到OLEDs设计,催化剂的发现。 历史上化学家使用薛定谔方程做数值近似来解决化学检索问题,如使用密度泛函理论(DFT),然而近似值的计算成本限制了搜索的规模。

为了能够扩大搜索能力,AI科技评论了解到已有几个研究小组使用DFT生成的训练数据,创建ML模型来预测化学性质,例如Matthias Rupp等用机器学习模型来预测各种有机分子的原子化能,Jörg Behler 和 Michele Parrinello引入DFT势能面的一种新的神经网络表征。在这些工作的基础之上,谷歌研究院在QM9基准数据集(配有DFT计算的电子,热力学和振动性质的分子集合)上应用了各种机器学习方法。

谷歌研究院发布了两篇论文,介绍了他们在这一领域的研究,研究工作由Google Brain团队,Google Accelerated Science团队,DeepMind和巴塞尔大学合作完成。 第一篇论文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》调查了回归分子和分子表征的选择对快速机器学习模型的影响,模型用于构建有机分子的十三个基态电子性质,每个回归/表征/性质组合的性能通过学习曲线评估,该曲线描绘近似误差,以此作为训练集大小的函数。论文在QM9基准数据集上测试了多种机器学习方法,并集中改进最有希望的深层神经网络模型。

第二篇论文《Neural Message Passing for Quantum Chemistry》描述了一种称为消息传递神经网络(MPNN)的模型族,将其抽象地定义为包含很多对图形对称性具有不变性的神经网络模型。研究团队在MPNN模型族中开发了新变体,性能明显优于QM9基准测试的所有基准测试方法,另外某些目标的性能改进了近四倍。

从机器学习的角度来看,分子数据之所以有趣,原因之一是一个分子的自然表征以原子作为边界的结点和键。能够利用数据中固有对称性的模型更容易泛化,这很容易理解,卷积神经网络在图像识别上之所以成功,一部分原因是模型能够记住图像数据中的一些不变性知识,比如把一种图片中的狗挪到图片左边还是一张狗的照片)。 图形对称性这一固有特征是机器学习处理图像数据非常理想的性质,在这领域也有许多有趣的研究,例如Yujia Li等研究了结构化图片的特征学习技巧,David Duvenaud等应用图像神经网络学习分子指纹信息,Steven Kearnes等提出一种机器学习模型用于无向图的学习。尽管这一领域已有所进展,谷歌研究院希望找到化学(和其他)应用模型的最佳版本,并找出文献中提到的不同模型之间的联系。

谷歌研究院提出的MPNN模型提高了QM9数据集任务(预测所有13种化学性质)的最好性能,在这个特定的数据集上,他们的模型可以准确地预测13种性质中的11个,这样的预测性能已经足够准确,能对化学家未来的应用有帮助。另外,此模型比使用DFT模拟要快30万倍。但是在MPNN模型走向实际应用之前还有很多工作要做。实际上,MPNN模型必须应用于比QM9数据更多样化的分子集合(例如数目更大,变化更大的重原子集合)。当然,即使有了更真实的数据集,模型的泛化性能还是很差。克服以上两个挑战需要解决机器学习研究的核心问题,例如泛化。

预测分子性质是一个非常重要的问题,它既是先进的机器学习技术的应用场景,也为机器学习带来了非常有趣的基础研究课题。最后,分子性质的预测有助于造福人类的新药物和材料的设计。谷歌科学家们认为传播研究成果,帮助其他研究者学习机器学习应用都是及其重要的。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

《程序员》:增强学习在无人驾驶中的应用

2164
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

3356
来自专栏机器之心

学界 | 结合生成式与判别式方法,Petuum新研究助力医疗诊断

34112
来自专栏PPV课数据科学社区

数据科学教材没有教给你的三件事

有问题直接微信我吧! 大家好,PPV课大数据微信开通了人工客服,大家有问题可以在工作时间:9:00-18:00直接通过微信与客服联系! ? 如果你还没有听说的话...

2714
来自专栏华章科技

数据科学经验谈:这三点你在书里找不到

我真的不是在说这些课程的坏话。我在大学教了很多年的机器学习,教的东西始终都围绕着那些非常具体的算法模型。你可能非常了解支持向量机,高斯混合模型, K-均值聚类等...

503
来自专栏AI科技评论

大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密

9月9日,2016湖南人工智能湖南论坛在长沙举办,大会期间,来自国内外的许多顶级专家在会上给我们做了报告,下面是雷锋网根据微软亚洲研究院刘铁岩教授的现场精华整理...

3296
来自专栏AI科技评论

Hinton新作「在线蒸馏」,提升深度学习分布式训练表现的利器

有无穷无尽的计算资源并不一定可以为所欲为。但知识蒸馏似乎可以帮你尽量突破分布式随机梯度下降的瓶颈!

824
来自专栏CDA数据分析师

资源 | 最全的27张机器学习Python(以及数学)速查表 (附下载链接)

机器学习 以下是一些实用的流程图和机器学习算法表。 神经网络架构 来源: http : //www.asimovinstitute.org/neural-net...

2109
来自专栏华章科技

机器学习的前世今生:一段波澜壮阔的历史

AlphaGo的胜利,无人驾驶的成功,模式识别的突破性进展,人工智能的的飞速发展一次又一次地挑动着我们的神经。作为人工智能的核心,机器学习也在人工智能的大步发展...

683
来自专栏新智元

深度学习会让机器学习工程师失业吗?

有人说,每10到15年神经网络就会经历一个这样的循环:由于人们变得对大规模凸优化问题兴致盎然,神经网络会被遗忘10年——然后换上一个性感的新名字(比如深度学习)...

3547

扫描关注云+社区