2025年2月19日,Nature上发表文章Biggest-ever AI biology model writes DNA on demand,介绍了一个据称是迄今为止最大的生物学人工智能模型--Evo-2。
该模型基于横跨生命之树的12.8万个基因组(从人类到单细胞细菌和古菌)训练而成,能够从头编写完整的染色体和小型基因组,还能解析现有DNA--包括与疾病相关的难以解释的“非编码”基因变异。
Evo-2由加利福尼亚州帕洛阿尔托的Arc研究所、斯坦福大学及英伟达共同开发,科学家可通过网络接口使用,或下载其开源软件代码、数据及其他参数以复现模型。
项目链接:
https://github.com/ArcInstitute/evo2
开发者将Evo-2视为一个可适配多种用途的平台。Arc研究所及加州大学伯克利分校的生物工程师Patrick Hsu在发布会上表示:“我们非常期待科学家和工程师如何为生物学构建‘应用商店’。”
其他科学家对已公开的模型描述(发布于Arc研究所网站并提交至bioRxiv预印本服务器)的论文表示印象深刻,但仍需进一步验证。斯坦福大学计算基因组学家Anshul Kundaje称:“我们需在预印本发布后观察其在独立基准测试中的表现。”目前,他对模型的底层工程能力感到惊叹。
数万亿碱基
近年来,研究者开发了日益强大的“蛋白质语言模型”,例如前Meta员工开发的ESM-3模型。这些模型通过训练数百万蛋白质序列,已用于预测蛋白质结构及设计全新蛋白质,包括基因编辑器和荧光分子。
与这些模型不同,Evo-2的训练数据包含“编码序列”(携带蛋白质合成指令)和非编码DNA(包括调控基因活性的序列)。
去年发布的Evo初代版本基于8万个细菌、古菌及其病毒的基因组训练。
Evo是一个70亿参数的基因组基础模型,从单个核苷酸到整个基因组学习生物复杂性。
最新模型则涵盖12.8万个基因组,包括人类、其他动植物及真核生物,总计9.3万亿个DNA碱基。Hsu表示,基于计算能力和其他特性,Evo-2是目前最大的生物学AI模型。
相比原核生物,真核生物基因组更长且复杂:基因由编码区与非编码区交错组成,非编码“调控DNA”可能远离其控制的基因。为应对这一复杂性,Evo-2可学习长达100万碱基对的DNA序列模式。
为展示其解析复杂基因组的能力,团队用Evo-2预测乳腺癌相关基因BRCA1中已知突变的影响。Hsu称,其在判断编码区变异是否致病方面接近最佳生物AI模型,“对非编码突变则是当前最优”。未来,该模型或可帮助识别患者基因组中难以解释的变异。
研究人员还测试了Evo-2对复杂基因组特征的解析能力,包括猛犸象基因组。旧金山Gladstone研究所的计算生物学家Christina Theodoris认为:“Evo-2在理解DNA调控规则上迈出了重要一步。”但Kundaje指出,模型虽擅长识别编码区及邻近非编码DNA,是否掌握远距离调控序列尚不明确。
拼接序列
Evo-2的吸引力之一在于能生成与蛋白质及非编码序列对应的全新DNA序列。团队曾用Evo-1设计包含DNA切割酶和导向RNA的新型CRISPR基因编辑器,并在实验中验证其功能。他们还尝试设计细菌和病毒基因组,但缺乏真实基因组的特征。斯坦福大学和Arc研究所的计算生物学家Brian Hie在发布会上称:“这类似基因组的模糊照片。”
Evo-2改善了这一问题。团队用其生成模拟生殖支原体首个全合成基因组的细胞生物)、人类线粒体及33万碱基长的酵母染色体基因组。Hie表示,这些结果比Evo-1更接近真实,但“仍有改进空间”--目前生成的基因组若植入细胞可能无法运作。
非营利机构Tatta Bio的计算生物学家兼CEO Yunha Wang指出,由于Evo-2是在生命树的DNA上训练的,因此它可以熟练地将从细菌和古细菌基因组中学到的知识应用于新的人类蛋白质。
Evo 2的模型架构、训练过程、数据集和评估概述
团队计划通过实验验证Evo-2。例如,他们设计了改变染色质(影响多细胞生物细胞身份的结构)可及性的序列,并正与另一实验室合作在小鼠胚胎干细胞中测试。
蛋白质语言模型等AI工具已引发生物设计革命。Hie及其同事(最终目标是AI建模完整细胞)希望基因组模型如Evo-2能推动领域超越蛋白质设计,迈向基因组设计。
参考资料:
https://doi.org/10.1038/d41586-025-00531-3
https://arcinstitute.org/news/blog/evo2
https://arcinstitute.org/manuscripts/Evo2