首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型

从Evo到Evo 2:Arc Institute推出全新升级版基因组大模型

作者头像
实验盒
发布2025-02-20 12:42:28
发布2025-02-20 12:42:28
1.8K0
举报
文章被收录于专栏:实验盒实验盒

基因组语言模型(Genomic Language Models)逐渐成为研究热点。2024年,Arc Institute的Brian L. Hie和Patrick D. Hsu研究团队发布了具有里程碑意义的基因组大语言模型Evo,可处理原核生物基因组长序列,相关成果发表在《Science》上。2025年2月19日,Arc Institute研究团队发布了Evo的升级版Evo 2,其在数据规模、模型架构、预测能力和生成能力等方面的显著升级,为跨生命域的基因组建模与设计提供了强大的支持。

数据规模与多样性:从Evo到Evo 2的飞跃

Evo 2的训练数据 OpenGenome2是其核心优势之一,包含超过9.3 万亿个 DNA 碱基对,覆盖了所有生命域的基因组,包括细菌、古菌、真核生物和噬菌体。

这一数据规模相比前代模型Evo使用的3000亿个碱基对实现了质的飞跃。而 Evo 的数据集覆盖范围和质量相对有限,主要集中于原核生物基因组。

与 Evo 相似,为了降低潜在的生物安全风险,Evo 2 的数据同样排除了感染真核生物的病毒序列。

这种规模和多样性的提升,使得 Evo 2 能够更全面地学习各类生物基因组的复杂特征,为基因组的功能预测与设计奠定了数据基础。

模型架构与训练方法的升级

Evo 2的架构采用了StripedHyena 2,这是一种结合卷积和注意力机制的混合架构,专为处理长序列数据设计。模型提供了7B和40B参数的两个版本,而Evo的参数规模较小,仅为7B。这一扩展使得Evo 2能够捕捉更复杂的基因组模式,在预测和生成任务中表现更为出色。

此外,Evo 2的上下文窗口扩展至100 万个碱基对,相比Evo的窗口,显著增强了其对长距离序列关系的理解能力。训练过程分为两个阶段:在预训练阶段,模型专注于学习短序列的功能基因元素;而在中训练阶段,上下文长度被进一步扩展,以捕捉长基因组距离之间的关系。这种分阶段训练策略使得Evo 2具备了在不同长度尺度上处理生物序列的能力。

预测能力的增强

Evo 2在基因变异功能预测方面表现卓越,尤其是在处理非编码区变异和剪接变异时展现了强大的能力。

例如,在对ClinVar数据集中致病性变异的零样本预测测试中,Evo 2的AUROC和 AUPRC均显著高于 Evo以及其他模型。这表明Evo 2不仅能够准确预测编码区变异的影响,还能识别非编码区变异的功能效应,这在以往研究中一直是一个难以攻克的难题。

此外,Evo 2对剪接变异的预测进一步加深了我们对基因表达调控和功能的理解。这些能力为研究基因组的功能调控机制提供了重要工具,也为未来个性化医疗和疾病研究开辟了新的方向。

生成能力的突破

除了预测能力,Evo 2在生成基因组序列方面也实现了重要突破。它能够生成完整的 线粒体基因组、最小细菌基因组以及 酵母染色体 等复杂序列。这些生成的序列不仅在结构上与自然序列高度相似,在功能上也表现出潜在的活性。

更为突出的是,Evo 2在生成过程中引入了推理时搜索(inference-time search) 技术,能够设计具有特定表观基因组特性的DNA序列,例如具备预设染色质可及性模式的序列。这种生成能力为合成生物学和基因组工程提供了强大的支持,而Evo的生成能力则主要集中于原核生物基因组,难以实现如此高的复杂性和自然性。

开放性与可扩展性

Evo 2的开放性是其另一大亮点。模型参数、训练代码、推理代码以及训练数据集均实现了开源。这种开放性为学术界和工业界的研究人员提供了极大的便利,使他们可以在 Evo 2的基础上进一步改进和开发应用。

生物安全与伦理考量

在生物安全和伦理问题上,Evo 2采取了更为谨慎的措施。例如,其训练数据中排除了感染真核生物的病毒序列,以确保模型不会被滥用于设计和操纵致病性病毒。这一策略不仅降低了潜在的生物安全风险,也体现了研究团队对伦理问题的高度重视。

应用前景

Evo 2的出现为计算生物学和生物信息学领域开辟了新的可能性。其强大的预测能力可以帮助研究人员更好地理解基因组序列的功能调控机制,支持疾病相关变异的挖掘以及个性化医疗的开发。同时,其生成能力为合成生物学提供了强大的支持,能够设计出具有特定功能的生物系统。

Evo 2的开源特性还加速了学术界和工业界的合作与创新。研究人员可以利用这个模型开发更多针对特定任务的应用,例如基因组注释、药物靶点发现以及新型生物材料的设计。

总结

Evo 2作为新一代基因组语言模型,在数据规模、模型架构、预测能力和生成能力等方面实现了显著提升。相比前代模型 Evo,Evo 2展现了更强的泛化能力和应用潜力,其对基因组复杂性的深刻理解为生命科学研究提供了新的工具和视角。未来,随着技术的进一步发展,Evo 2 有望在个性化医疗、合成生物学和基因组工程等领域发挥更重要的作用,为生命科学研究带来更多创新和突破。

参考

文献: https://arcinstitute.org/manuscripts/Evo2

代码: https://github.com/ArcInstitute/evo2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据规模与多样性:从Evo到Evo 2的飞跃
  • 模型架构与训练方法的升级
  • 预测能力的增强
  • 生成能力的突破
  • 开放性与可扩展性
  • 生物安全与伦理考量
  • 应用前景
  • 总结
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档