首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 迈向通用细胞表达预测:基于多任务学习的统一框架

Nat. Commun. | 迈向通用细胞表达预测:基于多任务学习的统一框架

作者头像
MindDance
发布2026-01-08 14:13:24
发布2026-01-08 14:13:24
1510
举报

DRUGONE

基因序列到功能的预测是人类遗传学的重要挑战,尤其是在从生物序列推断细胞类型特异性的多组学表型方面。研究人员开发了 UNICORN,一个基于多任务学习的计算框架,能够在细胞水平和细胞类型水平上精确预测基因表达及多组学表型。UNICORN 将生物序列嵌入与预训练基础模型(如基因组语言模型和大型语言模型)的外部知识相结合,通过精心设计的损失函数进行优化。结果表明,UNICORN 在基因表达预测、多组学表型预测和不确定性估计等任务中优于现有方法。它不仅能建立个体化基因表达与基因组信息之间的关联,还能捕捉不同疾病状态与扰动下的细胞系统变化。该研究揭示了基础模型嵌入在理解序列功能中的潜力,并展示了多组学整合提升预测性能的能力。

从 DNA 序列预测基因表达和功能产物是生物学的核心问题之一。早期模型(如 Enformer、Borzoi 等)在批量数据层面实现了较高精度,但难以处理细胞类型特异性差异和单细胞数据的噪声问题。

单细胞测序技术(scRNA-seq、scATAC-seq、CITE-seq 等)带来了更精细的细胞层面信息,却也伴随严重噪声与数据稀疏性。现有模型往往忽视了这种异质性,导致表达水平预测不稳定,尤其是在不同细胞类型或个体间。

研究人员指出,亟需一种 可解释、可扩展、具不确定性量化能力的通用框架,以便同时整合多种组学数据、捕捉细胞层级特征、并适应个体差异。UNICORN 因此被提出,旨在实现从 DNA、RNA 到蛋白质的统一表达预测,并在多任务场景下提升泛化性。

方法概述

UNICORN 基于迁移学习与多任务学习思想,由两部分组成:

  • 预训练嵌入生成:利用基因组语言模型(如 Enformer、HyenaDNA、DNABERT 等)和大型语言模型(如 GPT、GenePT)提取基因、峰区或蛋白序列的嵌入;
  • 表达预测与不确定性估计:采用非线性预测器(双层 MLP)从嵌入推断表达水平,并由独立的不确定性估计网络评估预测可靠性。

模型的损失函数结合了相关性、似然与误差项,以同时捕捉模式相关性与数值准确性。UNICORN 具备多模态可扩展性,可在 RNA、ATAC、蛋白组信号间联合训练,实现跨组学预测。

图1. UNICORN 框架与功能概览

结果

UNICORN 显著提升单细胞与细胞类型层面的预测精度

研究人员在胸腺(Thymus)和外周血单核细胞(PBMC)数据集上评估模型。与 Enformer、Borzoi、seq2cells 等方法相比,UNICORN 及其组合版本(结合基因序列与语言嵌入)在基因层和细胞层的皮尔逊相关系数更高、均方误差更低。

当将单细胞数据聚合为伪体(pseudo-bulk)时,UNICORN 的相关性显著提升,表明其能稳定建模细胞类型层级的表达特征。此外,模型在细胞标志基因预测与基于转录组聚类的区分度测试中均居前列。

图2. 基因表达预测性能比较

可解释性机制揭示性能提升来源

研究人员系统分析了模型可解释性:

  • 通过标准化与稀疏性处理减少零值噪声,提高预测一致性;
  • 聚合细胞为伪体可显著改善整体性能;
  • 不同超参数与损失设计解释了性能改善的阶段性来源。

同时,模型的不确定性估计模块可识别高置信基因,过滤高不确定性基因后,整体预测误差下降。低不确定性基因在 GO 通路富集分析中显著集中于组织特异性功能,显示预测置信度与生物意义一致。

图3. 模型解释性与不确定性估计结果

UNICORN 可实现个体化表达预测

利用 GTEx v9 数据集中配对的单细胞转录组与全基因组测序(WGS)信息,研究人员测试了个体层级预测能力。UNICORN 能重现个体间的表达模式差异,优于 Enformer,在 endothelial 细胞中表现最佳。低质量样本(聚类得分较低)会显著降低预测准确度,表明数据质量对个体化预测影响显著。

图4. 个体层面基因表达预测性能

多组学联合预测揭示跨模态调控关系

在 10X Multi-omic与 CITE-seq数据上,联合训练模式优于单一模态预测。特别是在蛋白表达预测中,RNA+Protein 联合输入可显著提高相关性。模型还准确预测了与单核细胞相关的功能峰区(如 NDEL1 区域),验证其在多组学特征关联中的可靠性。

图5. 多组学层面的表达联合预测与实例验证

疾病与扰动条件下的预测揭示生物变异模式

研究人员进一步验证了 UNICORN 在疾病与扰动条件下的适应性。

  • 在主动脉与心脏疾病数据集中,模型准确捕获了不同病理状态下的表达变化;
  • 引入病变细胞进行训练可反向提升正常细胞预测性能;
  • 在扰动数据集中,不同化合物(如 Ganetespib、Ketoconazole)呈现显著不同的相关性与误差分布,反映扰动强度与异质性。

UNICORN 能正确预测疾病相关基因(如 NT5C2)的表达趋势,展示了其在病理状态解析中的潜力。

图6. 疾病与扰动条件下的基因表达预测差异分析

讨论

预测 DNA 序列驱动的基因表达仍是生物学中的重大挑战。UNICORN 提供了一个统一、透明且可扩展的解决方案,实现了从序列到多组学表型的端到端预测。

主要贡献包括:

  • 统一多组学预测框架 —— 将序列、语言与功能嵌入融合,实现单细胞与细胞类型水平的联合建模;
  • 引入不确定性量化 —— 提供预测置信度与可解释性,辅助识别关键基因;
  • 支持个体化预测 —— 可利用配对的 WGS 与单细胞数据重构个体基因表达谱;
  • 跨条件泛化 —— 能适应疾病与扰动状态,揭示调控机制与表达变异。

研究人员指出,未来工作应包括:

  • 构建基于个体信息的预训练模型;
  • 引入更强的 transformer 架构或改进损失函数,以捕获变异效应;
  • 扩展至跨物种与时间序列层面,提升模型的生物泛化性。

总体而言,UNICORN 为基因表达建模、变异功能预测及多组学整合提供了强大的计算框架,为实现通用细胞表达预测迈出了关键一步。

整理 | DrugOne团队

参考资料

Liu, T., Huang, T., Wang, L. et al. UNICORN: Towards universal cellular expression prediction with a multi-task learning framework. Nat Commun 16, 9455 (2025).

https://doi.org/10.1038/s41467-025-64506-8

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档