ACS central science通过一次学习进行低数据药物探索

ACS central science|通过一次学习进行低数据药物探索

引言

有时生物学家发现靶点有活性的小分子能够作为潜在的药物分子,但新发现的潜在药物分子往往会因为一些原因而失败,主要包括毒性,低活性和低溶解度等问题。机器学习在近期对于药物研发提供了卓越的贡献,在药物的性质和活性的探讨中深度神经网络提供了非常大的作用。然而,这项技术应用的瓶颈主要在于需要非常大的数据集。

成果简介

Vijay Pande 教授团队在《ACS central science》上发表题为Low Data Drug Discovery with One-Shot Learning的文章,阐述了一个新的方法通过一次学习(one-shot)来使得低数据量的数据在药物研发应用中变得有意义。作者介绍了一种新的流程,引入了一种新的体系结构,迭代细化长短期记忆(LSTM),当与卷织神经网络结合时,显著的改善了小分子的有意义距离度量。同时作者开源了所有的模型作为DeepChem的一部分,DeepChem是作者开发维护的深度学习药物框架。https://github.com/deepchem/deepchem

图文解读

图1:一次学习在药物发现中的网络构架

图2:嵌入式迭代的细化描述.为了阐述的目的,图中输入和输出均以二维表示,坐标轴由q1和q2组成。红色和蓝色的点分别描述积极和消极的采样。初始的嵌入函数g'(S)用平方表示。期待功能r使用空心圆表示。

图3.图形流程表示本文主要的图像操作.对于每个操作,正常节点操作以蓝色表示,没有改变的节点以亮蓝色表示。对于图像卷织和图像池,操作暂时为单一节点,v;实际上v在所有的节点上执行。

之后作者对一系列数据集进行了评价:

Tox21:Tox21收集了12个细胞核受体相关的毒性分析,Tox21原本为数据挑战赛数据

SIDER:医疗不良反应数据集

MUV:包含17种虚拟筛选设计挑战方法

实验结果如下:

表1表2: Tox21与SIDER数据集ROC-AUC模型得分,算法依次为随机森林(RF),图像卷织(Graph Conv),暹罗(孪生神经网络,Siamese),Attn长短期记忆(AttnLSTM),迭代长短期记忆(IterRefLSTM)。表中10+/10-表示包含10个积极样本,10个消极样本。下同

表14-17 MUV数据

总结与展望

本文介绍了一种体系模型来进行小样本数据药物发现,文章证明这种构架可以为简单的数据学习方法提供强大的支撑,在Tox21和SIDER数据集中,一次学习方法具有显著的优势,特别是SIDER数据集,主要是因为该数据集具有非常高的表型副作用。鉴于预测不确定性,一次学习能够很好地胜任小的生物数据集的训练。

但在MUV数据集上,与简单机器学习相比,一次学习的泛化能力有很大的局限性。主要是因为MUV数据包含有非常多的骨架,一次学习方法难以推广到未知骨架中。这也说明一次学习模型泛化能力局限性有限。

Deepchem安装简介

对于Ubuntu 16.04相似环境安装libxrender包:

使用conda安装

使用conda脚本安装最新版(form the source):

方法如下:

Conda简单安装

使用Docker安装

使用Docker安装非常的方便

简介

Vijay S.Pande 为特立尼达-美国 生物医学家,曾任斯坦福大学化学,结构生物学和计算科学教授。其最出名的为领导分布式疾病科研项目Folding@home.其研究领域主要为分布式计算和微生物计算模型。其研究关注于提升药物结合计算模拟,蛋白设计和合成生物模拟聚合物。

作者主页:https://pande.stanford.edu

编辑:KWY

审核:邓宏华

推送:黑芝麻小汤没圆

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180917G0YIYT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券