前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AlphaFold 2不再一家独大!DeepMind和华盛顿大学团队同日抢发Nature和Science

AlphaFold 2不再一家独大!DeepMind和华盛顿大学团队同日抢发Nature和Science

作者头像
AI科技评论
发布2021-07-27 13:46:16
6800
发布2021-07-27 13:46:16
举报
文章被收录于专栏:AI科技评论AI科技评论

去年年底,谷歌 AI 团队 DeepMind 的第二代 AlphaFold 算法在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,以至于许多人宣布这个长达数十年的问题“已被解决”。

具体而言,AlphaFold2 在国际蛋白质结构预测竞赛(CASP)上精确地基于氨基酸序列预测蛋白质的3D结构。其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。

当时此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”李飞飞、马斯克等众多大佬纷纷点赞、转发。

而就在今日,在最新一期的《 Science 》杂志上,有来自西雅图华盛顿大学医学院蛋白质设计研究所的研究团队,公布了其人工智能系统RoseTTAFold的研究结果,它在预测蛋白质3D结构方面的表现,与AlphaFold2的水平几乎相当,而且速度更快、所需计算机处理能力更低,更令人惊喜的是,RoseTTAFold 直接免费开源!

论文链接:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

同日, DeepMind 的 CEO 哈萨比斯等人在 《Nature 》上也发表论文,公布了 AlphaFold2 的源代码,并且详细描述了它的设计框架和训练方法。

有趣的是,为了和 Science 同一天抢发论文,Nature 特意在论文标题前开头备注:“这是一份未经编辑的手稿,但是已允许出版。Nature Research 乐意为作者和读者提供这份手稿的早期版本。”

论文链接:https://www.nature.com/articles/s41586-021-03819-2_reference.pdf

1 RoseTTAFold——后来居上

图注:David Bak

华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker教授领导的团队声称他们从AlphaFold2的设计思路中获得启发,构建了名为 RoseTTAFold 的人工智能软件系统。

“三轨” 神经网络

事实上,RoseTTAFold 是一个 “三轨” 神经网络("three-track" neural network),这意味着它能同时考虑一维蛋白质中的氨基酸序列模式、二维蛋白质的氨基酸之间如何相互作用以及蛋白质可能出现的三维结构。

在这种网络架构中,蛋白质的一维、二维和三维信息之间能够来回流动,互通有无,从而使神经网络能够综合所有信息,共同推理出蛋白质的化学组成部分和其折叠结构之间的关系。

图注:“三轨” 神经网络

直接生成蛋白质-蛋白质复合体模型

三轨神经网络端到端版本的最后一层通过组合来自不连续蛋白质序列(蛋白质的两个片段,它们之间有一个链断裂)的特征来生成 3D 结构模型。研究员推断,由于网络可以无缝处理链断裂,因此它可能能够直接从序列信息中预测蛋白质-蛋白质复合物的结构。

除了大大减少所需的计算时间(在 24G TITAN RTX GPU 上约 30 分钟内从序列信息生成复杂模型)之外,这种方法几乎通过构建实现了“灵活的主干”对接。

DeepMind 报告称他们使用多个 GPU 进行了为期数天的单独预测,而 RoseTTAFold 的预测是通过网络以用于服务器相同的方式进行的单次传递;在蛋白质序列和模板搜索之后(约 1.5 小时),RoseTTAFold 的端到端版本在 RTX2080 GPU 上需要约 10 分钟即能为少于 400 个残基的蛋白质生成骨架坐标。

下图是使用 RoseTTAFold 从序列信息预测大肠杆菌蛋白质复合物的结构。实验确定的结构在左边,RoseTTAFold 预测的结果在右边,下面的 TM 分数表示两着结构相似性的程度。

另外,Baker教授的团队已经将RoseTTAFold软件工具上传到GitHub上面,7月份以来,它已经被世界上超过140个不同研究团队下载使用。同时,该团队还搭建了服务器,可以让研究人员输入蛋白质序列然后获得预测的蛋白质结构。服务器在上个月启动后,已经帮助解析了大约500名用户提交的超过5000个蛋白质结构。

总的来说,RoseTTAFold 能够解决具有挑战性的 X 射线晶体学和冷冻电镜建模问题,在缺乏实验确定结构的情况下提供对蛋白质功能的预测,并快速生成蛋白质 - 蛋白质复合物的准确模型。对蛋白质-蛋白质复合物数据集的进一步训练可能会进一步改进多蛋白质组件结构的建模。该方法可以很容易地与现有的小分子和蛋白质结合剂设计方法相结合,以改进对感兴趣目标的新蛋白质和小分子配体的计算发现。三轨道网络结构同时处理序列、距离和坐标信息,为从低温EM结构确定到蛋白质设计的所有三个层次的结合约束和实验信息的新方法打开了新的一扇大门。

GitHub地址:https://github.com/RosettaCommons/RoseTTAFold

2 AlphaFold2——姗姗来迟的揭秘

哈萨比斯在今天也发推感言,他们终于实现了开源的承诺。

接下来,我们简单了解一下AlphaFold2的设计框架。

AlphaFold2架构

传统上,从蛋白质序列预测3D蛋白质结构有两种方法,分别侧重于物理相互作用或进化历史轨迹。

前者将分子动力学结合到蛋白质的热力学或动力学模拟、统计近似中,其在理论上很吸引人,然而分子模拟在计算上非常困难,蛋白质的稳定性受到环境影响,并且它的预测准确性也不高,令其在应对中等大小蛋白质时也非常吃力。

后者则基于蛋白质之间的相似性来帮助预测,包括蛋白质进化历史分析、已知结构的同源性分析以及成对进化相关性等。这种生物信息学方法受益于蛋白质数据库、基因组测序数据库的增长以及深度学习的发展,但其准确性依然不高。

AlphaFold2通过结合基于蛋白质结构的进化、物理和几何约束,开发了新型神经网络架构和训练方法,大大提高了结构预测的准确性,其架构如下图所示(图3a)。

该网络包括两个主要阶段,即主干模块和结构模块。

主干模块由重复堆叠的Evoformer模块构成,以生成已处理的MSA和残基对(配对的氨基酸)的表示。

其中MSA是指多重序列比对,表示对一组蛋白质序列的演化关系、同源关系的分析结果,例如氨基酸的突变情况,通常用于揭示蛋白质二级结构与三级结构甚至个别氨基酸的保守性。

Evoformer 模块则包含了许多新颖的基于注意力和非基于注意力的组件。

DeepMind表示,Evoformer的关键创新是提出了在 MSA 内交换信息的新机制,并且其配对表示允许直接推理空间和进化关系。

主干模块之后是结构模块。该模块的输出是蛋白质的每个残基的旋转和平移信息,从而引入了明确的 3-D 结构。

这些表示以所有旋转角度和所有位置坐标进行初始化,并能快速收敛至具有精确原子细节的高度准确的蛋白质结构。

DeepMind表示,这一模块的关键创新包括:通过打破链原子结构,允许同时对结构的所有部分进行局部细化;提出一种新颖的等变Transformer架构,允许网络隐式推理未表示的侧链原子;提出一个损失项,给残基的方向正确性提供关键权重。

在结构模块和整个网络中,DeepMind通过重复将最终损失应用于输出,然后将输出递归地馈送到相同模块来强化迭代细化。

使用整个网络的迭代细化,显着提高了准确性,而额外的训练时间很少。

Evoformer模块

Evoformer模块的关键原理是将蛋白质结构预测视为 3-D 空间中的图推理问题,其中图的边缘由邻近的残基定义,配对表示(以数组表示)的元素则编码有关残基之间关系的信息(图3b)。

对于MSA 表示数组,其列编码输入序列的各个残基,而行表示这些残基出现的序列。在这个框架内,DeepMind定义了许多更新操作,这些更新操作应用于每个块中,其中不同的更新操作被串联应用。

与之前的工作不同,这些操作将持续应用于每个模块中,而不是只在网络中应用一次,这使得从不断演化的 MSA 表示和配对表示之间可以进行连续通信。

预测过程解释

AlphaFold2 是如何预测蛋白质结构的呢?DeepMind为网络中的 48 个 Evoformer 模块中各自单独训练了一个结构模块,同时保持主网络的所有参数保持不变。

在前几个模块之后产生的轨迹非常平滑,表明 AlphaFold2 对蛋白质结构进行了不断的增量改进,直到它不能再改进(图4b)。

这些轨迹也说明了网络深度的作用。对于非常具有挑战性的蛋白质,如 SARS-CoV-2 Orf8 (T1064),网络搜索并重新排列多层的二级结构元素,然后再确定一个好的结构。对于 LmrP (T1024) 等其他蛋白质,网络会在前几层内找到最终结构。

图 4a 展示了消融实验的结果,表明自蒸馏训练、不变点注意力等机制都有助于提高AlphaFold2的准确率。

硬件配置

据了解,运行 AlphaFold2 的最简单方法,是使用DeepMind提供的 Docker 脚本。DeepMind提供了一个参考配置:在Google Cloud 上,采用 12 个 vCPU,85 GB RAM,100 GB 引导磁盘,额外 3 TB 磁盘的数据库,一个 A100 GPU 。

GitHub地址:https://github.com/deepmind/alphafold

参考资料:

https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

https://science.sciencemag.org/content/373/6552/262

https://www.nature.com/articles/s41586-021-03819-2

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 RoseTTAFold——后来居上
  • 2 AlphaFold2——姗姗来迟的揭秘
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档