摘要
AI 介入医学让救治变得更高效,同时也在颠覆人类认识科学的方式。
「这将改变医学,改变研究,改变生物工程,」生物学家 Andrei Lupas 这样评价 Alphabet 旗下的 DeepMind 最新推出的蛋白质结构预测 AI——AlphaFold 2。
「它将改变一切。」最后这句话直接被《自然》杂志用作封面标题。
Lupas 之所以这么说,因为他本人花了十年时间,用尽各种实验方法也没能弄清楚一种蛋白质折叠后的形状,但借助 AlphaFold 2 后,他在半个小时内就看清了那团彩色的,像是被手掌捏出特定形状的「珠子项链」。
蛋白质会折叠成特别的三维形状,很像「珠子项链」|视觉中国
知道「珠子项链」折叠后的三维形状至关重要,因为它决定了蛋白质如何工作。开发新药的科学家要是能知道蛋白质的形状,或许就能帮助他想出可以与蛋白质结合的分子。分子一旦和蛋白质结合,就能改变它,从而治愈疾病。
以新冠为例,科学家一直在试图研究新冠病毒表面的刺突蛋白是如何与人类细胞中的受体相互作用的。而像老年痴呆症这种由错误折叠的蛋白质引起的疾病,人们一旦看清了蛋白质的结构,就能在现有的药物中快速匹配治疗或者尝试新的疗法。
尽管学界都知道蛋白质结构至关重要,但要弄清楚却不是件容易的事情,如今人工智能的成熟应用给了预测蛋白质结构另一种可能。
在有着「蛋白质奥林匹克竞赛」之称的国际蛋白质结构预测竞赛(CASP)上,AlphaFold 2最终击败其他人类选手,拿到了冠军。谈及这个 AI 模型预测的准确性,有的参赛者甚至沮丧地说,「我怀疑很多人会离开这个领域,因为核心问题可以说已经解决了。」
科技圈同样兴奋不已,Google CEO Sundar Pichai、斯坦福教授李飞飞和特斯拉 CEO 埃隆·马斯克第一时间在社交媒体上转发祝贺。
1972 年的诺贝尔化学奖得主 Christian Anfinsen 最早提出,氨基酸(珠子)按照一定顺序排列,会让蛋白质(项链)形成一个固定的三维结构。而基于「珠子」的序列可以计算并预测「项链」会扭成什么形状。
蛋白质对生命体而言至关重要。几乎所有疾病,包括癌症、痴呆症都与蛋白质的功能有关。蛋白质的功能完全取决于它的三维结构形状,而蛋白质功能则关系着我们健康与疾病的一切。因此,了解了蛋白质的三维结构有助于人们设计新药、防治疾病,无论是遗传疾病还是感染疾病。
但蛋白质「项链」能折叠出数以亿计的形状,对其结构的预测就成了一件有着巨大挑战的难题。
1969 年,美国分子生物学家 Cyrus Levinthal 指出,用暴力计算法列举一个典型蛋白质的所有可能构型所需的时间比已知宇宙的年龄还要长,他估计一个典型蛋白质有 10^300 种可能构型。
现实中,目前人类只是试图破解一种蛋白质的形状就需要数年的时间,和昂贵的仪器设备。科学家们在实验室中一般使用诸如 X 射线晶体学(X-ray crystallography)和核磁共振光谱法(NMR spectroscopy)这样的传统技术确定蛋白质的三维结构,以了解蛋白质分子中每一原子的相对位置。
从 1994 年开始,每两年就会举办一次国际蛋白质结构预测竞赛(CASP),评审团会拿科学家团队用电脑所预测的蛋白质结构与使用实验室方法得出的三维结构结果进行比较。
例如,华盛顿大学的 David Baker 开发了一套名为「Rosetta」的计算机程序来预测蛋白质结构。他的思路是:如果能够穷尽两两氨基酸分子之间所有可能的位置及其对应的能量状态,就能得到蛋白质结构了。但现实挑战是,目前计算机的计算能力并不足以支撑这种穷举,一旦遇到复杂的蛋白质,这套程序就不适用了。
AlphaFold 和 AlphaFold 2 的分数对比|nature
2016 年以前,CASP 大赛中最高预测分数最高也只到了 40GDT 左右,离代表实验室结果的 90GDT 还有很大差距。美国时间 11 月 30 日,DeepMind 的 AlphaFold 2 在评估中的总体中位数得分达到了 92.4GDT。想比两年前的 AlphaFold,AlphaFold 2 刷新了记录,从 60GDT 一跃上升为 92.4GDT。
「在某种意义上,难题已经被解决了。」CASP 的共同创始人 John Moult 告诉《自然》。
第一版的 AlphaFold 虽然刷新了 CASP 的纪录,但却没能激起很大的水花,因为它并不算真正的 AI 完全体,它还借鉴了上面提到的「Rosetta」等计算机程序的成果。但 AlphaFold 2 就不一样,它是一个 AI 完全体。AlphaFold 2系统所使用的数据,来自包括约 17 万个蛋白质结构,以及未知结构的蛋白质序列的大型数据库。在训练时,它使用了大约 128 个 TPU v3 内核(大致相当于 100-200 个 GPU),并仅运行了数周。
「从 17 万个已经知道三维结构的蛋白质分子中,科学家们挑一个,把它的氨基酸序列信息『喂』给算法,算法大致『猜测』出一个三维结构。然后,算法把它的猜测和已知的三维结构进行对比,并且根据猜测的结果是不是靠谱,继续调整猜测的策略。这样反复用 17 万个三维结构训练,算法逐渐就获得了直接从氨基酸序列预测蛋白质三维结构的能力。」浙江大学生命科学研究院教授王立铭「简化」了 AlphaFold 系统的运行过程。
他还认为,用 AI 预测蛋白结构实际上是在践行这样一种思路:既然我们知道氨基酸的顺序决定了蛋白质的三维结构,有没有可能不做实验,直接从氨基酸的顺序出发,推测蛋白质分子的三维结构呢?
目前人类知道氨基酸顺序的蛋白质分子有 1.8 亿个,其中三维结构信息被彻底看清的只有 17 万个,还不到 0.1%。仅仅通过耗时耗钱的实验显然是「杯水车薪」。
BBC 记者 Helen Briggs 表示,AI 的学习速度惊人,它用几天的时间就能达到实验室几十年的研究水平。
但要实现这样高效的研发,DeepMind 必须与科学家分享这项 AI 技术。DeepMind 的联合创始人兼 CEO Demis Hassabis 表示,先让 AlphaFold 变得更有用,以便之后科学家们使用。此前,DeepMind 公布了第一版 AlphaFold 足够多的技术细节,让科学家们复制这个 AI 预测的方法。
目前,DeepMind 还没有公开关于 AlphaFold 2 的更多技术细节,和未来知识共享的计划。但这个全新的 AI 模型已经让科学界和科技圈激动不已。
过去几年,DeepMind 靠旗下的电竞 AI AlphaStar 和围棋 AI AlphaGo「出圈」。它们在《星际争霸》和围棋策略游戏中碾压了职业玩家。而现在,DeepMind 似乎要「毕业」了,不只在游戏中证明自己的智慧,开始解决具有现实世界意义的科学问题。而这些问题,生死攸关。
王立铭教授幻想了这样一个场景:「一名癌症患者找到医生,医生测定了他体内肿瘤细胞的基因序列,发现他体内某一个特殊蛋白质发生了变异,因此导致了癌症。同时,医生还能对这种特殊蛋白质进行结构预测,有针对性地设计一个药物与之结合,破坏其功能,从而治疗癌症。所有这一切只需要几天时间。」在未来,疾病的诊断和治疗将变得高度个性化。
更重要的,AI 介入医学让救治变得更高效,其实也在颠覆人类认识科学的方式。
通过「暴力」训练,前几年的 AlphaGo Zero 甚至可以做到,只需要知道围棋的基本规则,比如怎么吃子、怎么判断胜负,就可以在完全无视人类所有经验的条件下学成绝技。人类之前在小样本中归纳、演绎、总结再实践的过程被颠覆了,现在是这些经验有时候并非完全必需,只要有足够多数据,AI 就能直接算出结果。
「只要那些复杂问题需要巨大的组合空间搜索能力才能解决;具有需要优化的明确目标函数;具有大量数据或者具有一个准确有效的模拟方法。」AlphaFold2 研究团队说道,「那它们就能被 AI 一一破解。」
题图来源:DeepMind
责任编辑:于本一
本文由极客公园 GeekPark 原创发布
领取专属 10元无门槛券
私享最新 技术干货