首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 大规模预训练DNA模型,全面刷新基因组学任务表现

Nat. Commun. | 大规模预训练DNA模型,全面刷新基因组学任务表现

作者头像
DrugAI
发布2026-05-20 10:13:33
发布2026-05-20 10:13:33
810
举报

DRUGONE

基于DNA序列的深度学习模型正在推动基因组功能解析的发展,但目前大多数模型仍然局限于特定任务,需要针对不同数据集重新训练,因此难以在复杂生物学场景中实现通用化应用。本文中,研究人员提出了一种名为 SUCCEED 的大规模监督式DNA基础模型。该模型基于6,389条来自ENCODE计划的功能基因组学轨迹进行预训练,通过联合学习染色质可及性、组蛋白修饰以及转录因子结合等多种调控特征,构建可迁移的DNA调控表示。

SUCCEED采用卷积网络与Transformer相结合的混合架构,既能够识别局部DNA motif,也能够捕获长距离调控依赖关系。研究结果表明,该模型在多个基准测试中达到甚至超过Enformer的表现,并能够通过迁移学习实现细胞类型特异性表观组预测、低质量ATAC-seq信号增强以及三维染色质结构预测。相比仅依赖DNA序列进行自监督训练的模型,SUCCEED在多种基因组任务中均表现更优。整体而言,该研究构建了一个可扩展、可迁移的DNA基础模型框架,为复杂生物学场景中的全基因组调控建模提供了统一方案。

基因组学领域长期以来的重要目标之一,是解析DNA序列中的调控信息,并揭示序列变异如何影响基因表达与细胞状态。随着人类参考基因组的不断完善以及ENCODE等大型功能基因组计划的发展,研究人员已经能够以前所未有的分辨率研究基因调控网络。

然而,目前的功能组学数据仍存在明显局限。例如,不同组织、细胞类型以及时空状态的数据覆盖仍然不足,实验噪声也会显著影响数据质量。因此,现有资源只能部分反映真实转录调控网络,限制了复杂调控机制的定量建模以及非编码变异致病性的系统评估。

近年来,深度学习逐渐成为基因组学的重要工具。大量研究已经证明,仅利用DNA序列即可预测基因表达、染色质开放性、组蛋白修饰、转录因子结合以及三维染色质结构等功能特征。训练后的模型还能够帮助研究人员解析顺式调控语法,并预测非编码变异的功能影响。

不过,目前大多数模型依然存在几个关键问题。首先,它们通常缺乏细胞类型特异性信息,因此很难在未知细胞类型中实现准确预测;其次,不同任务往往需要重新训练独立模型,计算成本较高;此外,目前许多DNA大模型虽然具有一定泛化能力,但主要依赖DNA序列的自监督训练,并未充分利用海量表观组学数据。

为了应对这些挑战,研究人员提出了SUCCEED模型。该模型通过监督式预训练直接学习DNA序列与功能组学特征之间的映射关系,从而构建能够迁移到多种下游任务的通用DNA基础模型。研究人员进一步展示了SUCCEED在细胞类型特异性表观组预测、ATAC-seq信号增强以及三维染色质结构预测中的强大泛化能力。

方法

研究人员构建了名为SUCCEED的DNA基础模型,其整体架构结合了卷积神经网络与Transformer模块。卷积层负责识别局部DNA motif,例如启动子和增强子中的保守序列模式;随后,多层下采样卷积结构逐步整合不同尺度上的基因组信息;Transformer模块则用于建模远距离调控关系;最终,多任务预测头同时输出数千种功能组学信号。

模型使用来自ENCODE计划的6,389条功能组学轨迹进行监督式预训练,涵盖ATAC-seq、DNase-seq、转录因子ChIP-seq以及组蛋白修饰等多种数据。训练过程中,模型输入为one-hot编码DNA序列,输出则对应不同表观组学信号。研究人员还引入了SwiGLU激活函数、RMSNorm归一化以及RoPE旋转位置编码等结构优化策略,以提高长序列建模能力与训练稳定性。

在下游任务中,研究人员采用迁移学习策略,仅微调部分模块甚至只更新分类头,即可快速适配不同基因组学任务。

结果

SUCCEED构建统一的大规模DNA基础模型

研究人员首先介绍了SUCCEED整体架构。该模型融合卷积网络与Transformer,通过层次化方式同时编码局部motif与远距离调控关系。卷积模块用于早期motif识别,而Transformer则能够捕获增强子—启动子之间的长距离依赖。

与Enformer相比,SUCCEED在减少卷积核数量与Transformer层数的情况下,依然能够维持高性能。此外,研究人员还引入了RoPE位置编码与SwiGLU激活等来自大语言模型领域的优化策略,提高了长序列建模能力。

图1: SUCCEED整体架构与预训练流程。

SUCCEED在多种基因组学预测任务中达到先进性能

研究人员首先在仅使用DNA序列的条件下,将SUCCEED与Enformer进行了系统比较。结果显示,SUCCEED在CAGE信号预测中甚至超过Enformer,在转录因子结合、组蛋白修饰以及ATAC-seq预测任务中也达到相近水平。

进一步在七项经典基因组任务上的比较发现,经过大规模监督预训练后的SUCCEED平均准确率达到0.906,高于从零训练模型的0.891,并整体优于多数自监督DNA语言模型。

研究人员还通过可解释性分析发现,SUCCEED学到的卷积特征能够准确对应已知转录因子motif,同时模型在预测过程中不仅依赖局部序列,也显著利用远距离基因组信息。

图2: SUCCEED在多种基因组预测任务中的性能比较。

SUCCEED实现跨尺度基因组调控建模

研究人员进一步测试了SUCCEED在不同输入长度与不同分辨率下的表现。结果显示,SUCCEED能够在131 kb到2 Mb不同尺度之间稳定工作,并能够通过迁移学习快速适配新的输入尺度,而无需完全重新训练。

特别是在长序列输入条件下,仅微调分类头即可获得明显性能提升,同时大幅降低训练时间与计算成本。这说明SUCCEED已经学到了可跨尺度迁移的基因调控表示。

图3: SUCCEED跨尺度与跨数据集迁移能力分析。

SUCCEED能够准确预测细胞类型特异性表观组

由于原始DNA序列无法完全决定细胞类型特异性调控状态,研究人员进一步在SUCCEED中加入ATAC-seq编码器,用于引入细胞特异性染色质开放信息。

在与当前先进模型EPCOT的比较中,SUCCEED在跨染色体与跨细胞类型测试中均取得更高性能,尤其在组蛋白修饰预测中优势明显。研究人员还发现,SUCCEED在零样本跨物种预测中同样表现出色,即使从未见过小鼠数据,依然能够准确预测多种小鼠组织中的表观组信号。

此外,与仅依赖DNA序列自监督训练的模型相比,SUCCEED和Sei这类基于大规模功能组学监督预训练的模型在细胞类型特异性预测任务中表现明显更优。

图4: SUCCEED预测细胞类型特异性表观组的性能分析。

SUCCEED能够增强和去噪ATAC-seq信号

ATAC-seq尤其是单细胞ATAC-seq数据通常存在覆盖度低、噪声高的问题。研究人员因此利用SUCCEED的调控语法学习能力,对低质量ATAC-seq信号进行增强与去噪。

研究结果显示,SUCCEED在bulk ATAC-seq与scATAC-seq任务中均显著优于AtacWorks。即使在极低测序深度下,模型依然能够准确恢复染色质开放区域。例如,在仅有50个细胞甚至单细胞输入条件下,SUCCEED仍能够重建高质量可及性图谱。

此外,模型在小鼠胚胎ATAC-seq数据中的零样本迁移结果同样良好,说明其学习到的调控规律具有跨物种泛化能力。

图5: SUCCEED对bulk与单细胞ATAC-seq数据的增强与去噪结果。

SUCCEED实现细胞类型特异性三维染色质结构预测

研究人员最后将SUCCEED应用于三维基因组结构预测任务。相比需要同时依赖ATAC-seq与CTCF ChIP-seq输入的C. Origami,SUCCEED仅利用ATAC-seq即可重建高精度Hi-C接触图谱。

实验结果显示,SUCCEED能够准确恢复不同细胞类型中的染色质接触结构,并在跨细胞类型迁移任务中保持稳定性能。即使仅基于少量单细胞ATAC-seq数据,模型依然能够预测高质量三维基因组结构。

进一步的跨物种实验表明,SUCCEED在完全未见过小鼠数据的情况下,也能够准确恢复小鼠胚胎中的三维染色质组织结构。

图6: SUCCEED预测三维染色质结构的结果分析。

讨论

本研究提出了一个基于大规模功能组学监督预训练的DNA基础模型SUCCEED。与传统仅依赖DNA序列自监督训练的大模型不同,SUCCEED直接学习DNA与功能组学信号之间的映射关系,从而获得更强的生物学可解释性与迁移能力。

研究结果表明,SUCCEED不仅能够在多种基因组学任务中达到先进性能,还能够通过轻量级微调快速适配不同任务与不同尺度数据,大幅降低训练成本。尤其是在细胞类型特异性表观组预测、ATAC-seq增强以及三维染色质结构预测中,SUCCEED展现出明显优于自监督模型的优势。

此外,模型还具有较强的跨物种泛化能力,说明大规模监督预训练能够帮助模型学习保守的基因调控语法。研究人员认为,未来若进一步整合Roadmap、FANTOM以及单细胞组学资源,并结合更高效的长序列建模机制,SUCCEED有望发展成为统一多尺度、多模态基因调控分析的重要基础框架。

整理 | DrugOne团队

参考资料

Sun, C., He, Z., Zhang, S. et al. Large-scale data-driven pre-trained DNA models enhance performance across diverse genomics tasks. Nat Commun (2026).

https://doi.org/10.1038/s41467-026-73129-6

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档