专栏首页AI启蒙研究院《我不是药神》与AI研制新药

《我不是药神》与AI研制新药

最近电影《我不是药神》引发热议,原研药贵,且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》(基于深度强化学习的新药设计)、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕,人工智能到底如何研制新药的?这种方法有什么优缺点?

在制药行业,新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药,需要上十年的时间,费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物,规模约百万规模的化合物。需要从百万个候选化合物中,刷选出1个药物。这有点像是大海捞针,运气成分很大。而人工智能方法利用机器学习方法,从海量化合物数据库中提取关键有效信息,也许可以大大减少研发时间,提高筛选的成功率,成为新药研发的新的方法。一旦这条路能顺利走通,必将革新小分子化学药研制。

人工智能方法筛选分子有两个途径:一个是用监督学习的方法建模筛选模型,这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构,该方法不需要捞针,而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章,用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型,在完成训练之后用该模型生成候选药物。

人工智能具体用到了两类方法:一个是深度学习方法,在这里深度学习方法主要是RNN和生成式对抗网络(GAN,Generative Adversarial Networks ),GAN是近年来非常火的一种学习模型,通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法,用人类已经研制出的药物作为监督样本,调整模型参数。关于强化学习、监督学习、非监督学习方法,Yann LeCun大神对它们有一个比喻图如下:

生成模型的输入是什么呢?回想GAN方法正在图像处理中,输入就直接是图像本身。而在新药研制中,如果将分子数字化是个很好玩的事情,因为总不能将一个分子直接搬到计算机内存里去吧(想想都怪怪的),只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。

例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中,他们使用用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物,以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征,模型输入包括166个参数,来训练一个生成模型。他们所设计的深度网络结构,由输入层(166+1),编码网络(分别由128个和64个神经元组成的两层网络)、解码网络(分别由64个和128个神经元组成的两层网络)、输出层(166+1)、中间的潜在层(分别由4个神经元和1个代表抑制癌细胞效果数据的GI)、鉴别网络(分别由64个和3个神经元组成的两层网络)组成。研究人员在PubChem的七千多万个小分子中,发现了69个化合物,其中13个是已经申请专利的药物分子,另有13个是被PubChem BioAssay登记有效的化合物。

也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入,建立模型。想想都觉得疯狂,直接用SMILES数据描述一个分子,也就是将一个分子类比一个自然语言句子,采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊!!!直接看分子式就能研制药物了!!本文一开头提到的两篇论文就是用SMILES数据作为模型输入,训练模型的,他们发现直接学习分子式也是一个可行的策略。

对分子式用SMILES编码方法如下图。在本文开头提到的文章中,作者利用RNN方法(或者LSTM方法)可以训练出生成全新SMILES字符串的模型,再基于强化学习中的迁移方法,利用之前人类的小分子数据集作为学习范本,对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。

用人工智能方法设计新药看起来很容易、但实际上,当前AI设计新药存在许多缺陷:一是很难解释,设计出来的模型为什么能成功,缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模,但是监督数据却非常少,根据《Nature Reviews Drug Discovery》2016年的数据,在被FDA批准的1578个药物中,总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出,使得现有的强化学习方法运用在新药研制上,真正起作用有限。四是就算挑选出新的分子式,它的临场表现如何还得经历九死一生的过程。

归根结底,是因为我们对新药产生的分子机制还不真正清楚,用人工智能方法研制新药任重道远。

本文分享自微信公众号 - AI启蒙研究院(AIEvolve)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一周AI新闻回顾(2017-10-29)

    用户1594945
  • 通往未来的创新之路(一) --- 模式创新

    用户1594945
  • 【通俗理解】区块链

    用户1594945
  • linux学习第二十八篇:监控io性能,free命令,ps命令,查看网络状态,linux下抓包

    监控磁盘io性能 (命令:iostat,iotop) 查看磁盘读写状态: iostat -x %util:表示io等待,也就是磁盘使用占用cpu百分比。...

    用户1215343
  • Vue基础:组件--组件及组件通信

    组件可以扩展 HTML 元素,封装可重用的代码。在较高层面上,组件是自定义元素,Vue.js 的编译器为它添加特殊功能。在有些情况下,组件也可以是原生 HTML...

    奋飛
  • 【arXiv】2015 深度学习年度十大论文

    由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了...

    新智元
  • 机器学习笔试题精选(六)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/...

    红色石头
  • 解决kindeditor中ajax提交表单无法获取数据的问题

    在上面使用了afterBlur 方法做了一个处理,该方法是当编辑框失焦的是触发的,然后再去做数据同步.

    飞奔去旅行
  • Android ADB动态查看内存信息之Watch使用

    这个命令相信大家都不陌生,就是查看内存信息,那这会你应该明白我们的效果通过什么来实现的了吧,那就是watch。

    先知先觉
  • Java钉钉开发_01_开发前的准备

        首先登录开发者平台: 登录钉钉后台—>工作台—>自建应用—>应用开发,即可进入开发者平台

    shirayner

扫码关注云+社区

领取腾讯云代金券