
DRUGONE
基因序列到功能的预测是人类遗传学的重要挑战,尤其是在从生物序列推断细胞类型特异性的多组学表型方面。研究人员开发了 UNICORN,一个基于多任务学习的计算框架,能够在细胞水平和细胞类型水平上精确预测基因表达及多组学表型。UNICORN 将生物序列嵌入与预训练基础模型(如基因组语言模型和大型语言模型)的外部知识相结合,通过精心设计的损失函数进行优化。结果表明,UNICORN 在基因表达预测、多组学表型预测和不确定性估计等任务中优于现有方法。它不仅能建立个体化基因表达与基因组信息之间的关联,还能捕捉不同疾病状态与扰动下的细胞系统变化。该研究揭示了基础模型嵌入在理解序列功能中的潜力,并展示了多组学整合提升预测性能的能力。

从 DNA 序列预测基因表达和功能产物是生物学的核心问题之一。早期模型(如 Enformer、Borzoi 等)在批量数据层面实现了较高精度,但难以处理细胞类型特异性差异和单细胞数据的噪声问题。
单细胞测序技术(scRNA-seq、scATAC-seq、CITE-seq 等)带来了更精细的细胞层面信息,却也伴随严重噪声与数据稀疏性。现有模型往往忽视了这种异质性,导致表达水平预测不稳定,尤其是在不同细胞类型或个体间。
研究人员指出,亟需一种 可解释、可扩展、具不确定性量化能力的通用框架,以便同时整合多种组学数据、捕捉细胞层级特征、并适应个体差异。UNICORN 因此被提出,旨在实现从 DNA、RNA 到蛋白质的统一表达预测,并在多任务场景下提升泛化性。
方法概述
UNICORN 基于迁移学习与多任务学习思想,由两部分组成:
模型的损失函数结合了相关性、似然与误差项,以同时捕捉模式相关性与数值准确性。UNICORN 具备多模态可扩展性,可在 RNA、ATAC、蛋白组信号间联合训练,实现跨组学预测。

图1. UNICORN 框架与功能概览
结果
UNICORN 显著提升单细胞与细胞类型层面的预测精度
研究人员在胸腺(Thymus)和外周血单核细胞(PBMC)数据集上评估模型。与 Enformer、Borzoi、seq2cells 等方法相比,UNICORN 及其组合版本(结合基因序列与语言嵌入)在基因层和细胞层的皮尔逊相关系数更高、均方误差更低。
当将单细胞数据聚合为伪体(pseudo-bulk)时,UNICORN 的相关性显著提升,表明其能稳定建模细胞类型层级的表达特征。此外,模型在细胞标志基因预测与基于转录组聚类的区分度测试中均居前列。

图2. 基因表达预测性能比较
可解释性机制揭示性能提升来源
研究人员系统分析了模型可解释性:
同时,模型的不确定性估计模块可识别高置信基因,过滤高不确定性基因后,整体预测误差下降。低不确定性基因在 GO 通路富集分析中显著集中于组织特异性功能,显示预测置信度与生物意义一致。

图3. 模型解释性与不确定性估计结果
UNICORN 可实现个体化表达预测
利用 GTEx v9 数据集中配对的单细胞转录组与全基因组测序(WGS)信息,研究人员测试了个体层级预测能力。UNICORN 能重现个体间的表达模式差异,优于 Enformer,在 endothelial 细胞中表现最佳。低质量样本(聚类得分较低)会显著降低预测准确度,表明数据质量对个体化预测影响显著。

图4. 个体层面基因表达预测性能
多组学联合预测揭示跨模态调控关系
在 10X Multi-omic与 CITE-seq数据上,联合训练模式优于单一模态预测。特别是在蛋白表达预测中,RNA+Protein 联合输入可显著提高相关性。模型还准确预测了与单核细胞相关的功能峰区(如 NDEL1 区域),验证其在多组学特征关联中的可靠性。

图5. 多组学层面的表达联合预测与实例验证
疾病与扰动条件下的预测揭示生物变异模式
研究人员进一步验证了 UNICORN 在疾病与扰动条件下的适应性。
UNICORN 能正确预测疾病相关基因(如 NT5C2)的表达趋势,展示了其在病理状态解析中的潜力。

图6. 疾病与扰动条件下的基因表达预测差异分析
讨论
预测 DNA 序列驱动的基因表达仍是生物学中的重大挑战。UNICORN 提供了一个统一、透明且可扩展的解决方案,实现了从序列到多组学表型的端到端预测。
主要贡献包括:
研究人员指出,未来工作应包括:
总体而言,UNICORN 为基因表达建模、变异功能预测及多组学整合提供了强大的计算框架,为实现通用细胞表达预测迈出了关键一步。
整理 | DrugOne团队
参考资料
Liu, T., Huang, T., Wang, L. et al. UNICORN: Towards universal cellular expression prediction with a multi-task learning framework. Nat Commun 16, 9455 (2025).
https://doi.org/10.1038/s41467-025-64506-8
内容为【DrugOne】公众号原创|转载请注明来源