首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

华人一作:谷歌DeepMind再推出革命性AI工具,预测和表征人类致病基因突变

撰文丨nagashi

编辑丨王多鱼

排版丨水成文

2001年,人类基因组计划(HGP)发布了人类基因组工作草图,人类由此获得了属于自己的“自然天书”。我们每个人都拥有独属于自己的“天书”,虽然内容上大致相同,但在某些篇章可能存在一些错字(基因突变)、漏字(基因缺失)和叠字(基因重复)的差异。

这些差异被称为“遗传变异”,其中大部分遗传变异属于良性变异,一般不会对人体造成伤害,但一些是致病性变异,例如红绿色盲血友病等基因突变,却会严重破坏蛋白质功能并降低机体适应性,甚至是致命的。因此,如何准确对意义未知的基因变异进行注释,一直是人类遗传学的一项重要挑战。

2021年7月16日,谷歌旗下的DeepMind团队在Nature发表论文,发布了开源了基于人工智能(AI)的蛋白质结构预测工具——AlphaFold2,AlphaFold2仅通过氨基酸序列就能以前所未有的准确度预测蛋白质三维结构。AlphaFold的出现,开启了计算生物学的新时代。

2023年9月19日,DeepMind团队在 Science 期刊发表题为:Accurate proteome-wide missense variant effect prediction with AlphaMissense 的研究论文。

这一次,他们基于AlphaFold开发了一种新的革命性人工智能工具——AlphaMissense,用于寻找导致遗传疾病的基因突变。

通过结合结构背景和进化保守,AlphaMissense提供了一个预测所有可能的人类单氨基酸替代的数据库(包含19233个标准人类蛋白质的 2.16亿种可能的单一氨基酸变化),预测到了7100万个错义突变,并将89%的错义变异分类为可能是良性的(57%)或可能是致病性的(32%)。

论文第一作者兼共同通讯作者Cheng Jun表示,AlphaMissense对医生和人类遗传学家将非常有用,非常有希望能帮助他们查明遗传疾病的原因。

DeepMind表示,团队已免费提供AlphaMissense对人类基因的所有预测,以及完全复制这项工作所需的所有细节,包括计算机代码。但DeepMind并没有发布整个AI模型供其他人立即下载和使用,他们声称这是为了防止将其应用于分析人类以外物种的基因可能带来的生物安全风险。

论文第一作者兼共同通讯作者Cheng Jun,2012年本科毕业于中国三峡大学,2015年硕士毕业于德国波恩大学和科隆大学,2019年博士毕业于德国慕尼黑工业大学。2021年加入DeepMind。

许多直接导致某种疾病的基因突变,比如导致囊性纤维化和镰状细胞病的基因突变,往往会改变它们编码的蛋白质的氨基酸序列。然而,在更广泛的尺度下,科学家们可以在整个人类基因组中观察到几百万个这样的单字母“错义突变”,而且它们中的大部分往往是良性的、无害的。

事实上,一直以来,缺乏准确的错义变异功能预测限制了罕见疾病的诊断率,以及针对潜在遗传原因的临床治疗的开发或应用。因此,当研究人员和医生发现他们从未见过的错义突变时,很难知道该怎么做。

为了准确注释这些未知意义的遗传变异,科学家们开发了数十种不同的计算工具,可以预测变异是否可能导致疾病,这些方法越来越多地通过机器学习来解决。如今,谷歌DeepMind研究团队开发了AlphaMissense,整合了解决问题的现有方法。

AlphaMissense架构

AlphaMissense结合了现有策略的以下要素:1)对来自种群频率数据的弱标签进行训练,通过不使用人工注释来避免循环;2)结合蛋白质语言建模任务来学习蛋白质序列的氨基酸分布;3)通过使用AlphaFold衍生系统结合结构背景。

具体而言,AlphaMissense基于此前的AlphaFold衍化而来,AlphaFold可以根据氨基酸序列预测蛋白质结构,并已经广泛应用于蛋白质结构研究领域。DeepMind的研究副总裁、该研究的作者之一Pushmeet Kohli在一次新闻发布会上表示,AlphaMissense通过利用对蛋白质结构的“直觉”来识别蛋白质中可能发生致病突变的地方。

AlphaMissense在临床分类基准上的表现

此外,AlphaMissense还结合了一种被称为蛋白质语言模型的神经网络,这种神经网络的灵感来自ChatGPT等大语言模型。与ChatGPT不同,该模型是在数百万个蛋白质序列而不是人类自然语言上进行训练的,这些蛋白质语言模型已经被证明擅长于预测蛋白质结构和从头设计新的蛋白质。

得益于此,AlphaMissense在识别已知的致病变异和非致病变异方面似乎优于其他计算工具。研究团队利用AlphaMissense创建了人类基因组中每一个可能的错义突变的目录,并确定了这些错义突变中57%可能是良性的,32%可能导致疾病。

AlphaMissense预测基因突变的危害性

DeepMind团队表示,AlphaMissense在临床注释、新生疾病变异和变异效应多重试验分析(MAVE)中实现了最先进的预测,而无需在这些数据上明确训练机器学习模型。研究团队通过AlphaMissense预测和表征了人类蛋白质组中所有单氨基酸变化的致病性,并将这些预测提供给社区。

毫无疑问,AlphaMissense的出现是预测遗传变异影响的一大进步,虽然其影响可能不会像AlphaFold那样显著,AlphaFold的出现开创了计算生物学的新时代。但这项研究结果仍然令人兴奋,这可能是我们目前拥有的最好的预测工具。

作为社区资源的AlphaMissense预测

当然,AlphaMissense距离实际的临床应用还有很大的一段距离要走,AI预测目前在诊断遗传疾病方面的作用还很小,这些工具应该只提供支持性证据将遗传变异与疾病联系起来。因此,AlphaMissense这样的AI工具在应用于现实世界之前必须经过严格的评估。

参考文献

https://www.science.org/doi/10.1126/science.adg7492

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O91rXKtSfdcFDPpzapHkGUcg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券