AI研发新药真有那么神?可能哈佛、斯坦福和阿斯利康实验室都在吹牛

安妮 李林 编译自 Medium 量子位 出品 | 公众号 QbitAI

近年来,向往着用AI研发新药的美好愿景,巨头纷纷投下了重注

制药巨头赛诺菲和AI药物发现平台Exscientia签下3亿美元巨额订单,葛兰素史克随后也出了4200万美元。默克和Atomwise、强生旗下的杨森制药与BenevolentAI也都有类似的合作。

风投也非常看好这个领域。硅谷VC公司安德森·霍洛维茨(A16Z)为投资AI药物发现公司,组建了一支4.5亿美元的基金。

好像巨头都上车了,小玩家要不要跟上?

今天,硅谷极客们最爱的HackerNews上有一篇热门文章就在探讨这件事。大部分评论者都同意这篇文章的基本观点:AI在药物发现中的作用被过度吹捧了

这篇文章通过分析制药公司阿斯利康、名校哈佛和斯坦福、以及创业公司Insilico Medicine等名声卓著的实验室最近的一些研究,来说明AI研究者是如何过度吹捧他们的成果的。

以下是这篇热门文章的主要内容,量子位编译整理:

1981年的《财富》杂志封面:

在默克,用计算机设计药物

我乐观地认为,这些事情2018年会有变化。这可能并不是因为人工智能的突破,而是因为这些研发机构会有进步:现在,随着在线教育和社交媒体的兴起,更强力的检查和平衡已经成为可能,为开放同行评议提供了新机会,这会成为挤泡沫的力量。

接下来,让我们进入技术部分,谈谈最近一些过度吹捧的AI研究案例。

阿斯利康

最近,英国制药公司阿斯利康和明斯特大学、上海大学的研究者一起发表了一项研究,尝试用循环神经网络(RNN)和强化学习来生成新分子。

相关论文:

Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks https://arxiv.org/abs/1701.01329

这个问题很重要,因为一个创造性的AI能为发现引导物的流程中带来更多多样性。

这篇论文引起了我的注意,是因为用了很大篇幅来讲模型的评价。这看起来很有深度,他们给出了基于谷本系数相似性度量和基于levenshtein距离等多个衡量指标。论文中还有大量的可视化展示。

然而,他们的衡量标准都是用在AI生成的分子与自然分子之间的,总是“省略”了对AI产生的分子彼此之间距离的测量。这种省略让人有一种“多样性”的错觉:AI生成的分子和自然分子之间的距离很大,就可以认为AI具有创造性,探索了化学空间中的新方向。

于是我们就有了如下图所示的错觉:

真正的多样性:蓝色圆点代表AI生成的分子,红色十字代表自然分子

而实际上,如果AI生成的分子之间距离很小,这就意味着我们陷入了下图所示的状况,模型所产生的分子基本位于同一位置,并没有多样性:

多样性错觉:AI生成的分子(蓝色圆点)和自然分子(红色十字)之间仍然有很大距离,但AI生成的分子集中在一起

简单来说,阿斯利康这篇论文对房间里的大象视而不见,最近这家公司一些其他论文依然有这个问题。

比如:

Molecular De Novo Design through Deep Reinforcement Learning https://arxiv.org/abs/1704.07555

Application of generative autoencoder in de novo molecular design https://arxiv.org/abs/1711.07839

哈佛

哈佛的一个团队注意到了这个多样性的问题。他们通过查看人工智能生成的样本,感觉出了问题,想要做点什么,于是提出了ORGAN模型。

相关论文:

Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models https://arxiv.org/abs/1705.10843

Optimizing distributions over molecular space. An Objective-Reinforced Generative Adversarial Network for Inverse-design Chemistry (ORGANIC) https://chemrxiv.org/articles/ORGANIC_1_pdf/5309668/3

GitHub地址: https://github.com/gablg1/ORGAN

他们的想法是要带来更丰富的化学多样性和化学现实主义,用第二个神经网络——鉴别器来校正生成器。如果分子看起来不太自然,它就惩罚生成器。这个想法来自AI学术界火爆的“生成对抗网络(GAN)”。

这是个好想法,但执行得非常糟糕。他们的结论是ORGAN比较好,但这个说法只是基于他们自己的观察得到的,没有任何量化支持。他们的定量实验并不支持这一结论。

而且,他们训练模型的方式是有问题的。看他们在GitHub上公开的训练日志就会发现,鉴别器总是在高度惩罚生成器,这个鉴别器太追求完美了,根本就是消灭了GAN的好处。

斯坦福

斯坦福有个用AI和深度学习研究化学的大团队,团队负责人是Vijay Pande,具有斯坦福教授和A16Z风投公司投资人的双重身份。

在Vijay Pande管理的投资项目中,“专为用机器学习方法测试分子性质而设计的基准”MoleculeNet最受关注的一个。

这个项目看起来画风严肃,包含大量化学知识、图形及深度学习模型,尤其关注graph-CNN和斯坦福团队其他为化学问题特制的神经网络。

MoleculeNet中的特制图

然而,还有一个大家心知肚明但却避而不谈的问题:上述Pande团队没有努力将他们的数据插入到一个字符级的卷积神经网络(char-CNN)中。自2015年Yann LeCun的论文Text Understanding from Scratch提出这种方法后,字符级CNN就容易被例行公事地用在各种AI任务中进行文本处理,并且比graph-CNN简单得多。

如果想使用字符级CNN,插入“SMILES(simplified molecular-input line-entry system)”字符串就好了。

回过头来想想,为什么斯坦福的研究人员不选择这种更简单的操作呢?在论文MoleculeNet: A Benchmark for Molecular Machine Learning的第17页,我们可以看到:

最近的研究已经证明了用更复杂的方法从SMILES字符串学习有用表示的能力,所以在不久的将来,将SMILES字符串用于进一步的学习任务是可行的。

MoleculeNet: A Benchmark for Molecular Machine Learning https://arxiv.org/abs/1703.00564

我不太相信字符级CNN对这个斯坦福团队来说过于复杂了,他们甚至在另外一篇文章中用到了字符级CNN。

Retrosynthetic reaction prediction using neural sequence-to-sequence models https://arxiv.org/abs/1706.01643

一个更合理、更尴尬的解释是,他们害怕字符级CNN的效果会更好。这意味着,他们心爱的graph-CNN模型将在分子基准测试中被击败,而这并不符合他们的期望。

原因很简单。DeepChem是一个斯坦福领导的开源库,用来实现MoleculeNet模型。如果字符级CNN比graph-CNN效果好,那么实践者就无需DeepChem了,他们可以直接用简单的TensorFlow或Pytorch实现。

DeepChem主页

在2018年,开源框架是一种战略性资产,就像通过Android,谷歌主宰了移动操作系统市场一样。DeepChem可能也想走一条类似的道路,控制AI在药物发现领域的发展。这可能就是MoleculeNet对字符级CNN视而不见的原因。

我自己使用DeepChem的经历印证了这个推测。曾经我天真地想在项目中使用DeepChem,直到我发现,无法将DeepChem模型和非DeepChem模型混合在一起。用DeepChem辨别器和非DeepChem生成器对对抗训练很有用,但我无法实现这个想法。相反,我被牢牢锁在DeepChem的代码中,没有料想到还有如此恶意的东西。

为了逃离这个陷阱,让DeepChem真正开源,我不得不挖掘复杂的代码。

项目地址: https://github.com/mostafachatillon/deepchem

对于一个更成熟的项目来说,这样做会更加困难。所以我的印象是,用这种“厂商锁定”的策略,DeepChem想吃掉AI世界来做化学研究。所以我对他们的合作投资人中有Marc Andreessen一点都不惊异。

Marc Andreessen曾有句名言:简而言之,软件正在吃掉世界

虽然MoleculeNet的团队成员刻意避免用字符级CNN做基准测试,但他们仍为MoleculeNet和DeepChem设计了精美的网页。这表明他们还是太注重表面,PR优先于坚实的科学研究。这也是硅谷的典型策略,初创公司设计虚假产品吸引流量,然后依靠社区来构建真实的东西。

硅谷知道,设计外表面比建造房屋更有用

Insilico Medicine

Insilico Medicine是AI创业公司中生成模型的先驱。在一篇论文中,Alex Zhavoronkov和他的团队提出了DruGAN,一种先进的生成式对抗自编码模型。我一直搞不明白这个模型哪里先进了。

druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico http://pubs.acs.org/doi/abs/10.1021/acs.molpharmaceut.7b00346

就发现药物这个需求来说,DruGAN肯定已经不先进了:它和其他的生成模型有相同的缺点,可能会让人失望。

在最近的一篇论文中他们使用了更复杂的工具,但也称不上先进吧。在他们论文的第9-10页,有这样一段话:

本研究使用的MACCS分子指纹不是理想的分子结构表征。Direct SMILES、InChI、分子图以及其他化学和生物相关的分子结构表征可作为更好的训练类型。

他们甚至还没有用到基准测试的变分自编码器(VAE)。在论文中他们声称DruGAN比VAE好,但是在Github上,一个DruGAN的作者提出了相反的观点:

实际上,我们没有像AAE[DruGAN]那样调优VAE网络,所以这种比较不公平。我的意思是,你可以优化VAE,并超越我们的AAE。

所以我认为,DruGAN只比他们8个月前发表的论文先进。在整个论文中,他们不断提到相比以前工作的改进。也许,“进步”只是一个自我祝贺的词。

综上所述,我认为,AI在药物研发领域的应用被很多研究人员夸大了。

原文:https://medium.com/the-ai-lab/artificial-intelligence-in-drug-discovery-is-overhyped-examples-from-astrazeneca-harvard-315d69a7f863

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【ACL2016 终极盘点】终身成就奖得主:我还没玩深度学习

【新智元导读】在德国柏林召开的计算机语言顶级会议ACL2016将于当地时间明天(8月12日)闭幕。今天,大会公布了最佳论文,一篇关于词态学的论文获此殊荣。此外,...

3547
来自专栏新智元

褚达晨:深度学习青衫磊落险峰行,人工智能漫谈之一

【新智元导读】作者褚达晨认为,科技发展让人类借助计算机的能力,在一个超高维弯曲空间中,搜寻自然世界奥秘。而深度学习则是利用最近年发展起来的大算力,让计算机代替人...

2848
来自专栏互联网大杂烩

最优化模型 数据挖掘之优化模型

最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。

1122
来自专栏牛客网

算法工程师:非科班机器学习工程师养成计划虐心面试实录一点人生经验

这是一篇不太专业的算法工程师面经,希望能给非科班想要从事机器学习工作的同学或学弟学妹一些建议,同时也回馈给予我很大帮助的牛客网。目前拿到的offer有:网易、三...

9426
来自专栏深度学习自然语言处理

【概率论】基础之概率概论与集合论

概率论对于我们学习机器学习,深度学习等理论,还是自然语言处理,计算机视觉等应用都是很有用的。概率论和其他线性代数,微积分等还是不太一样的,概率这样的问题,就是在...

1223
来自专栏数说工作室

【温故】P值之死

100年前的今天(1918年7月8日),有位叫 Ronald Fisher 的人向外界宣读了一篇论文《Thecorrelation between relati...

822
来自专栏PPV课数据科学社区

干货 | 17张思维导图,一网打尽机器学习统计基础(附原图下载)

本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章做的一次完整的梳理,也是我至今为止所有与统计有关的学习笔记。众所周知,「统计学...

2829
来自专栏数据结构与算法

模拟退火算法

1590
来自专栏AI研习社

小二,来一份机器学习书单!

编者注:澳大利亚机器学习专家、畅销书作者 Jason Brownlee,对机器学习领域的各类优质书籍进行了盘点,汇总成这份阅读指南。在 AI 研习社所筛选的学...

4965
来自专栏机器人网

七步之内成为Python机器学习的大师

线上的Python的机器学习资源如此丰富,从哪开始?如何修炼?这篇文章让你从零开始,七步之内成为Python机器学习的大师。

1101

扫码关注云+社区

领取腾讯云代金券