向李昌钰学破案,这是Deepmind预测蛋白质结构的方法吗?

原创:谭婧、ZARD

现在的人工智能活跃在下围棋,打游戏等地方,出现了打遍天下无敌手的盛况。可是世界正在水深火热之中,人工智能怎么能光顾着玩。可能在社会责任感的感召下,人工智能公司想在人类急需前沿科技的领域创造一些有价值、有意义的事情,比如生命科学。

众所周知,全世界顶级的围棋选手人工智能阿法狗之父,Deepmind公司最近又因为在生命科学领域的成就,上了科技界的热搜榜。这个小成就就是,新的算法AlphaFold 可以仅根据基因预测生成蛋白质的三维形状。

可惜,公司并没有公布这个算法的论文。我们就这样放弃嘛?

不,我们要向李昌钰博士学习破案手段,绝不放过任何蛛丝马迹,靠丰富的想象力,进行推理,看能否找到Deepmind预测蛋白质结构的秘密研究方法。

第一步,理解蛋白质折叠这个应用场景

生物由蛋白质构成,生物体功能由蛋白质形状决定。蛋白质在人体中至关重要,其几何形状又对生物功能非常重要。借力基因组序列的发展,使我们得到了大量的蛋白质序列,结构信息的获得对于揭示蛋白质的生物学功能是十分重要的。

蛋白质的错误折叠,导致糖尿病,帕金森氏症和阿尔茨海默病等疾病。如果能破解蛋白质的折叠规律,可以深入了解蛋白质折叠与错误折叠的关系,对于某些疾病的致病机制的阐明以及治疗方法的寻找将大有帮助。如果能破解蛋白质的折叠规律,人类就有望改造、设计蛋白质的功能。总之,蛋白质折叠规律的破解能让生命科学向前一大步。

然而,要弄清一种蛋白质的结构,非常困难,有数百个氨基酸的蛋白质有可能呈现出数量惊人的不同结构,也就是说不同结构的有n中可能,n等于1后面300个零(around a googol cubed, or 1 followed by 300 zeroes.)。人算不过来,就让计算机算呗,可以通过输入氨基酸序列来让计算机预测蛋白质可能的折叠方式,很可惜,之前的算法仍不够准确。但是人工智能的算法提高了预测的准确率,所以由上文提到到的,新的算法AlphaFold 可以仅根据基因预测生成蛋白质的三维形状。

当有了足够多的氨基酸序列,有了新的算法,大数据和人工智能就好比倚天剑加上了屠龙刀。让算法预测出正确结果的可能性就会大大提高。

第二步、新算法从哪里成名?

这种新算法在一次知名大赛中斩头露角,这里有必要介绍一下这个大赛,大赛也是为了促进提高预测准确性的最新方法的研究和测量进展而设立的。结构预测评估竞赛(CASP)是蛋白质折叠领域的奥运会,一年两次的吸引了来自世界各地的研究团体,已成为评估技术的黄金标准。人工智能程序AlphaFold在这次比赛中赢得了第一。为了不助长人工智能无脑宣传的热潮,这里需要强调一下,只是赢得了比赛,不是应用到了医学研究机构以及医院和临床中。但是目前这种算法还不能用来治病,那种动不动就高呼人工智能战胜人类的患者,可以稍微克制一下。

第三步、分析现有的线索

思路一、翻查竞赛官网

因为是知名大赛,肯定会有相关的参赛团队和参赛作品的介绍。根据卫报报道,AlphaFold在首次参赛时,在98名参赛选手中拔得头筹,这些选手来自世界各地的优秀研究团队,他们所采用的研究方法赛事官网说不定会有介绍。带着这个思路,《亲爱的数据》翻查了竞赛官网。结构预测评估竞赛(CASP)是第十三次举办的意思。

官网介绍:结构预测评估竞赛(CASP)13为评估蛋白质结构建模方法提供了独立的制度。从2018年5月到7月,CASP组织者一直在这个网站上发布未知蛋白质结构的序列进行建模。从5月到8月中旬收集蛋白质模型,并在实验坐标可用时进行评估。在夏季和秋季,全球大约100个研究小组提交的数以万计的模型得到了处理和评估。此过程中,每个评估员都会带来具有客观性、平衡性和独立性的评估。此网站提供了可以用来查看、比较和分析现在已经提交了的模型的工具与方法。大赛实验的结果首先在即将于2018年12月举行的大赛会议之前公布。结果将由评估员在会议上公布,随后发表在科学期刊Proteins上。

请注意,亮点已经出现,此网站提供了用于查看、比较和分析已提交模型的工具。那么这里可能会有我们要找的东西——根据基因预测生成蛋白质的三维形状的新算法,AlphaFold。

思路二、找到关键文件

找到分析方法性文件,就在网站首页看到《摘要》就点开。文件太明显了,让这个过程缺少了破案的刺激感。《蛋白质结构预测技术的关键评估》映入眼帘英文名是《CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION》(如下图)

思路三、名字里的线索

仔细阅读关键文件,文件名自己也说了,自己叫做《关键评估》那就好好看看。文件介绍了大量的蛋白质结构预测技术,预计有100个左右。我们在其中发现了唯一有一篇论文是来自Deepmind的:Equal contribution, 1- DeepMind, London, UK; 2 UCL, London, UK. andrewsenior@google.com。来自谷歌的邮箱,英国伦敦DeepMind团队,这篇论文叫做《新方法预测基于深度学习算法的评分方法》,英文名《De novo structure prediction with deep-learning based scoring》。

思路四、分析论文

de novo是拉丁语,字面意思是新与英语单词“new”相同,在英语中用来表示“从一开始”正好对应算法的名字——AlphaFold一词中的Alpha也就是希腊字母表的第一个字母α。在英语中,名词“alpha”是“开头”或“第一”的同义词。

也请专业的人工智能从业者来判断一下,我们是否找到了Deepmind预测蛋白质结构的秘密研究方法。

第四步、大家一起分析一下《方法》

部分内容如下:

1.简介:

方法含有三种变量的、自动的、自由建模结构的预测系统,依赖分值的计算与深度神经网络。分值依赖于两个神经网络其中的一个:残差间的距离(inter-residue distances)的预测器和直接评分(direct-scoring)网络。利用生成神经网络是最基本的办法,使用了模拟退火算法,进行片段的生成和组合。第三种方法采用梯度下降法进行全链分数最小化。

2.评分的方法:

采用两个神经网络进行评分。首先,利用基于多序列校正(multiple sequence alignments)的特征,对从蛋白数据库(PDB)中选择非冗余蛋白数据库进行深度卷积神经网络训练,预测不同C-beta原子和冗余之间的距离。利用这些预测和参考分布,根据实现的距离计算候选结构的似然得分。训练第二个深度残差卷积神经网络,直接输出分数作为结构几何、基于多序列校正的特征和第一个网络的接触预测(contact predictions)的函数。

3.域分割(Domain segmentation)

通过对残差间距离预测的全链接触矩阵预测进行自动分析,得到两个或三个域的域分割假设。每个域分割假设(以及没有分割的全链)被独立折叠多达8次,每个假设中的域是被独立地折叠。

好了《亲爱的数据》的破案过程结束了,再强调一下,我们毫不放过任何蛛丝马迹和运用丰富的想象力,来进行推理。不过中国香港电影《盲探》说:查案呢,要靠想象力的。(完)

亲爱的数据

出品:谭婧

美编:陈泓宇

摄影:陈翔宇

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181205A020QS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券