前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nature|前Meta科学家推出蛋白质AI设计巨型模型

Nature|前Meta科学家推出蛋白质AI设计巨型模型

作者头像
智药邦
发布2024-07-16 17:07:21
700
发布2024-07-16 17:07:21
举报
文章被收录于专栏:智药邦

2024年7月8日,Nature发表新闻文章Ex-Meta scientists debut gigantic AI protein design model,介绍了前Meta科学家推出的巨型蛋白质AI设计模型。

EvolutionaryScale开发了迄今为止最大的生物学模型之一--ESM3,已被用于创造新的荧光分子。

本月,EvolutionaryScale在纽约宣布了这一原理验证,同时还获得了1.42亿美元的新一轮融资,用于将模型应用于药物开发、可持续发展和其他领域。该公司由曾在科技巨头Meta工作过的科学家创办,将在语言和图像上训练过的尖端机器学习模型应用到生物数据这一日益拥挤的领域。

Alex Rives曾参与Meta的人工智能应用于生物数据的工作,现为该公司的首席科学家,他说:“我们希望打造能让生物学变得可编程的工具。”

EvolutionaryScale的人工智能工具名为ESM3,是一种蛋白质语言模型。它是根据27亿多个蛋白质序列和结构以及这些蛋白质的功能信息训练而成的。该模型可用于根据用户提供的规格创建蛋白质,类似于ChatGPT等聊天机器人输出的文本。

绿色荧光蛋白的结构模型

威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter说:“它将成为生物学领域人人关注的人工智能模型之一。”

焕发光彩

Rives和他的同事在Meta开发了ESM模型的早期版,但在去年Meta结束了这一领域的工作后,他们开始独立创业。他们曾使用ESM-2模型创建了一个包含6亿个预测蛋白质结构的免费数据库。此后,其他团队也利用ESM-1设计了抗体,提高了对病原体(包括SARS-CoV-2)的活性,并重新设计了“抗CRISPR”蛋白,提高了基因编辑工具的效率。

今年,加利福尼亚州伯克利的另一家生物人工智能公司Profluent利用自己的蛋白质语言模型创造了新的受CRISPR启发的基因编辑蛋白质,并免费提供了一个这样的分子供使用。

为了展示其最新模型,Rives的团队着手改造另一种生物技术主力产品:绿色荧光蛋白(GFP),它能吸收蓝光并发出绿光。20世纪60年代,研究人员从生物发光水母Aequoreavictoria中分离出GFP。后来的工作--这一发现获得了诺贝尔奖--显示了GFP如何标记显微镜下观察到的其他蛋白质,解释了GFP发出荧光的分子基础,并开发了这种蛋白质的合成版本,使其发出的荧光更亮、颜色更多。

此后,研究人员又发现了其他形状类似的荧光蛋白,它们都有一个吸光和发光的“发色团”核心,周围环绕着桶状骨架。Rives的研究小组要求ESM3创造出一些类似GFP的蛋白质,这些蛋白质包含GFP发色团中的一组关键氨基酸。

研究人员合成了88种最有前景的设计,并测量了它们的荧光能力。大多数都不起作用,但有一种设计与已知的荧光蛋白不同,能发出微弱的荧光--其强度约为天然GFP的1/50。研究人员以这种分子的序列为起点,让ESM3改进其工作。当研究人员制作出大约100个这样的蛋白时,其中几种的亮度与天然GFP相当,尽管它们仍然比实验室工程化变体暗得多。

ESM3设计的最亮的蛋白质之一被称为esmGFP,其结构与天然荧光蛋白相似。然而,其氨基酸序列却大相径庭,与训练数据集中最密切相关的荧光蛋白的序列匹配度不到60%。在bioRxiv服务器上发布的一篇预印本论文中,Rives和他的同事表示,根据自然突变率,这种序列差异相当于“超过5亿年的进化”。

但Gitter担心,这种比较是一种无益且可能具有误导性的方式来描述尖端AI模型的产物。他说:“当你想到人工智能和加速进化时,这听起来很可怕。我觉得过分夸大一个模型的作用会伤害这个领域,对公众来说也很危险。”

Rives认为,ESM3通过迭代各种序列生成新蛋白质的过程类似于进化。我们认为,从自然界的角度来看,产生这样的东西是很有趣的。

风险阈值

ESM3是首批在训练过程中使用足够计算能力的生物人工智能模型之一,根据2023年的总统行政命令,开发人员必须通知美国政府并报告风险缓解措施。EvolutionaryScale表示,它已经与美国科技政策办公室取得了联系。

超过该阈值的ESM3版本--包括近1000亿个参数或模型用来表示序列间关系的变量--并未公开。在一个较小的开源版本中,某些序列被排除在训练之外,例如来自病毒和美国政府列出的令人担忧的病原体和毒素的序列。科学家可以在任何地方下载并独立运行的ESM3-open版本也无法被提示生成此类蛋白质。

洛桑联邦理工学院的结构生物学家Martin Pacesa很高兴能开始使用ESM3。他指出,ESM3是首批允许研究人员使用自然语言描述其特性和功能来指定设计的生物模型之一。

让Pacesa印象深刻的是,EvolutionaryScale发布了ESM3的开源版本,并清楚地描述了最大版本是如何训练出来的。但他说,独立开发这个最大的模型需要巨大的计算资源,任何学术实验室都无法复制它。

Rives渴望将ESM3应用于其他设计。Pacesa曾是使用不同蛋白质语言模型制造新CRISPR蛋白质团队的一员,他说,看看ESM3在这方面的表现会很有趣。Rives设想了ESM3在可持续发展领域的应用--公司网站上的一段视频展示了消化塑料的酶的设计,以及抗体和其他基于蛋白质的药物的开发。他说:“这确实是一个前沿模型。”

参考资料:

https://doi.org/10.1038/d41586-024-02214-x

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档