
DRUGONE
DNA 是所有生命系统存储遗传信息的核心载体。尽管基因组测序、合成与编辑技术极大推动了生命科学研究的发展,人类仍然难以全面理解基因组中蕴含的复杂信息,因此难以准确预测许多基因变异的功能影响,也难以理性地设计新的生物系统。近年来,人工智能模型通过学习来自不同物种的基因组序列,逐渐提升了对遗传信息的预测与设计能力。研究人员在此提出 Evo 2,一种基于深度学习的生物基础模型。该模型在一个高度整理的跨生命三域基因组图谱上训练,数据规模达到 9 万亿个 DNA 碱基对,并支持 100 万碱基长度的上下文窗口以及 单核苷酸分辨率建模。
Evo 2 可以在无需任务特定微调的情况下,直接预测遗传变异的功能影响,例如从非编码致病突变到临床相关的 BRCA1 变异。模型的机制可解释性分析表明,其内部表征与多种生物学结构密切相关,包括外显子—内含子边界、转录因子结合位点、蛋白质结构元素以及前噬菌体区域。与此同时,Evo 2 还具备强大的生成能力,能够在基因组尺度生成线粒体、原核生物和真核生物序列,并展现出比以往方法更高的自然性与一致性。结合预测模型和推理时搜索策略,Evo 2 还能生成经实验验证的染色质可及性模式。研究人员已将 Evo 2 模型参数、训练代码和数据集完全开放,以促进生命复杂性的探索与设计研究。

生命科学研究跨越多个层次,从分子到细胞再到完整生物体,其核心目标是理解生命系统中的功能结构并能够对其进行工程化设计。如果希望构建一个能够在整个生命多样性范围内进行功能设计的机器系统,该系统必须学习到一种高度通用的生物表征。
生物系统的复杂性远远超出人类直觉所能理解的范围,但人工智能的发展为解决这一问题提供了新的思路。通过大规模数据与计算能力,深度学习模型能够从复杂数据中发现高阶模式。此前研究表明,在原核生物基因组序列上训练的机器学习模型已经能够捕捉 DNA、RNA 与蛋白质之间的相互作用,并模拟复杂分子机器的功能。
在此基础上,研究人员提出 Evo 2,这是一种在覆盖 细菌、古菌和真核生物的代表性基因组集合上训练的生物基础模型。该模型通过数据整理、模型结构设计、大规模预训练以及推理策略等方面的创新,将序列建模能力扩展到了真核生物基因组的规模与复杂度。Evo 2 的设计目标并非针对单一任务进行优化,而是构建一个通用基础模型,为生命中心法则涉及的多种预测与设计任务提供统一基础。

图1:Evo 2 的模型架构、训练流程与数据集概览。
方法
Evo 2 在覆盖生命三域的大规模基因组序列上进行训练,包括细菌、古菌、真核生物以及噬菌体,总计超过 8.8 万亿个核苷酸序列。模型提供两个规模版本:一个拥有 70 亿参数,另一个拥有 400 亿参数。
训练过程分为两个阶段。第一阶段为预训练阶段,模型在较短序列上下文中学习功能性基因元素,并通过数据加权策略突出基因区域。第二阶段为上下文扩展阶段,通过逐步增加序列长度,将上下文窗口扩展至 100 万碱基对,从而使模型能够捕捉远距离基因组元素之间的关系。
在模型结构方面,Evo 2 采用一种名为 StripedHyena 2 的混合卷积架构,通过结合多种输入依赖卷积算子和注意力机制,实现对不同距离范围内序列关系的建模。这一结构在计算效率方面显著优于传统 Transformer 模型,并能够在超长序列上下文下保持高吞吐量和稳定训练。
结果
Evo 2 捕捉进化约束信息
通过在大量进化数据上学习序列概率分布,Evo 2 能够识别保守的序列模式,并将这些模式用于预测突变的潜在影响。研究人员在多个物种的基因组中系统评估了单核苷酸突变对模型概率的影响,发现模型能够准确识别翻译起始密码子附近的重要区域,并呈现出与三联体密码子结构一致的周期性模式。此外,在编码区上游区域,模型还识别出了与翻译起始相关的典型序列信号,例如 Shine–Dalgarno 序列和 Kozak 序列。
在不同类型突变的比较中,非同义突变、提前终止密码子和移码突变会显著降低模型预测概率,而同义突变的影响相对较小。这种趋势在细菌、古菌以及真核生物中均表现一致。对于非编码区域,tRNA 和 rRNA 等关键 RNA 元件的突变影响明显大于普通基因间区突变。
模型还能够识别不同生物的遗传密码差异。例如,在某些物种中不同终止密码子的使用方式存在差异,Evo 2 能够通过序列上下文自动推断这些差异并做出相应预测。

图2:Evo 2 对不同突变类型和生物功能的预测能力。
Evo 2 预测突变对功能的影响
研究人员进一步利用深度突变扫描实验数据评估模型预测能力。结果显示,Evo 2 的序列概率与蛋白质适应度之间存在显著相关性,并且在多种蛋白质与 RNA 数据集中均表现良好。
除了分子层面的预测,Evo 2 还能够推断基因是否为必需基因。通过模拟提前终止突变对基因功能的影响,模型能够区分细菌、古菌和噬菌体中的必需基因与非必需基因。
这些结果表明,Evo 2 不仅能够理解 DNA 序列本身,还能够捕捉跨越 DNA、RNA 和蛋白质层面的生物学规律,从而支持多种预测任务。

图3:Evo 2 在基因变异与功能预测中的表现。
Evo 2 预测人类遗传变异效应
遗传变异效应预测对于临床诊断和药物开发具有重要意义。研究人员利用 ClinVar 数据库中的人类遗传变异对 Evo 2 进行了评估。结果显示,在编码区和非编码区突变预测中,Evo 2 在无监督模型中表现领先,并且在某些类型的突变预测上优于现有方法。
在剪接突变预测任务中,Evo 2 同样表现出较强能力,并在多个测试集中超过其他无监督模型。研究人员还使用 BRCA1 基因的突变数据进行测试,发现 Evo 2 能够有效区分功能缺失突变与功能正常突变。
此外,通过提取模型嵌入向量并训练简单的监督分类器,可以进一步提高预测性能。这表明 Evo 2 不仅可以直接进行零样本预测,还可以作为下游模型的特征表示基础。

图4:Evo 2 在人类遗传变异预测中的表现。
Evo 2 的生物学特征可解释性
为了理解模型内部学习到的生物学知识,研究人员使用稀疏自编码器分析 Evo 2 的内部表示。结果发现,模型内部出现了与多种生物学结构相关的特征,例如前噬菌体区域、开放阅读框、tRNA 与 rRNA 区域等。
此外,模型还学习到了蛋白质二级结构相关特征,例如 α 螺旋和 β 折叠。研究人员还在人体基因组中识别出与转录因子结合位点相对应的特征,并发现模型能够自动识别外显子和内含子边界。
这些发现表明,Evo 2 在无监督学习过程中已经形成了高度结构化的生物学知识表示。

图5:Evo 2 内部表示的可解释性分析。
Evo 2 的基因组生成能力
除了预测任务,Evo 2 还展示了强大的生成能力。模型能够生成大规模基因组序列,包括线粒体基因组、细菌基因组以及真核基因组片段。这些生成序列在统计特征和结构模式上与天然序列高度一致。
在与预测模型结合后,Evo 2 还能生成具有特定功能的序列,例如控制染色质可及性的调控序列。实验结果表明,部分生成序列在真实生物系统中表现出预期功能,显示出该模型在生物设计方面的潜力。

图6:Evo 2 的基因组生成与设计能力。
讨论
研究结果表明,Evo 2 作为一个跨生命三域训练的基因组基础模型,能够在多种生物尺度上实现统一建模,从单核苷酸突变到完整基因组结构都可以进行预测与生成。与传统针对特定任务训练的模型相比,这种通用模型能够在无需额外训练的情况下处理多种生物学问题,并为后续任务提供强大的表示基础。
Evo 2 的成功表明,大规模序列模型能够从进化数据中自动学习生物学规律,并将这些规律用于功能预测与生物设计。随着模型规模和训练数据的进一步扩大,这类基因组基础模型有望成为未来计算生物学和合成生物学的重要工具,为理解生命系统和设计新的生物功能提供新的可能。
整理 | DrugOne团队
参考资料
Brixi, G., Durrant, M.G., Ku, J. et al. Genome modelling and design across all domains of life with Evo 2. Nature (2026).
https://doi.org/10.1038/s41586-026-10176-5

内容为【DrugOne】公众号原创|转载请注明来源