前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《我不是药神》与AI研制新药

《我不是药神》与AI研制新药

作者头像
用户1594945
发布2019-07-31 14:06:25
7400
发布2019-07-31 14:06:25
举报
文章被收录于专栏:AI启蒙研究院AI启蒙研究院

最近电影《我不是药神》引发热议,原研药贵,且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》(基于深度强化学习的新药设计)、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕,人工智能到底如何研制新药的?这种方法有什么优缺点?

在制药行业,新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药,需要上十年的时间,费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物,规模约百万规模的化合物。需要从百万个候选化合物中,刷选出1个药物。这有点像是大海捞针,运气成分很大。而人工智能方法利用机器学习方法,从海量化合物数据库中提取关键有效信息,也许可以大大减少研发时间,提高筛选的成功率,成为新药研发的新的方法。一旦这条路能顺利走通,必将革新小分子化学药研制。

人工智能方法筛选分子有两个途径:一个是用监督学习的方法建模筛选模型,这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构,该方法不需要捞针,而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章,用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型,在完成训练之后用该模型生成候选药物。

人工智能具体用到了两类方法:一个是深度学习方法,在这里深度学习方法主要是RNN和生成式对抗网络(GAN,Generative Adversarial Networks ),GAN是近年来非常火的一种学习模型,通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法,用人类已经研制出的药物作为监督样本,调整模型参数。关于强化学习、监督学习、非监督学习方法,Yann LeCun大神对它们有一个比喻图如下:

生成模型的输入是什么呢?回想GAN方法正在图像处理中,输入就直接是图像本身。而在新药研制中,如果将分子数字化是个很好玩的事情,因为总不能将一个分子直接搬到计算机内存里去吧(想想都怪怪的),只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。

例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中,他们使用用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物,以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征,模型输入包括166个参数,来训练一个生成模型。他们所设计的深度网络结构,由输入层(166+1),编码网络(分别由128个和64个神经元组成的两层网络)、解码网络(分别由64个和128个神经元组成的两层网络)、输出层(166+1)、中间的潜在层(分别由4个神经元和1个代表抑制癌细胞效果数据的GI)、鉴别网络(分别由64个和3个神经元组成的两层网络)组成。研究人员在PubChem的七千多万个小分子中,发现了69个化合物,其中13个是已经申请专利的药物分子,另有13个是被PubChem BioAssay登记有效的化合物。

也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入,建立模型。想想都觉得疯狂,直接用SMILES数据描述一个分子,也就是将一个分子类比一个自然语言句子,采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊!!!直接看分子式就能研制药物了!!本文一开头提到的两篇论文就是用SMILES数据作为模型输入,训练模型的,他们发现直接学习分子式也是一个可行的策略。

对分子式用SMILES编码方法如下图。在本文开头提到的文章中,作者利用RNN方法(或者LSTM方法)可以训练出生成全新SMILES字符串的模型,再基于强化学习中的迁移方法,利用之前人类的小分子数据集作为学习范本,对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。

用人工智能方法设计新药看起来很容易、但实际上,当前AI设计新药存在许多缺陷:一是很难解释,设计出来的模型为什么能成功,缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模,但是监督数据却非常少,根据《Nature Reviews Drug Discovery》2016年的数据,在被FDA批准的1578个药物中,总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出,使得现有的强化学习方法运用在新药研制上,真正起作用有限。四是就算挑选出新的分子式,它的临场表现如何还得经历九死一生的过程。

归根结底,是因为我们对新药产生的分子机制还不真正清楚,用人工智能方法研制新药任重道远。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI启蒙研究院 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档