首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Biotechnol. | CONCORD 通过对比学习重构单细胞数据的连贯细胞状态图谱

Nat. Biotechnol. | CONCORD 通过对比学习重构单细胞数据的连贯细胞状态图谱

作者头像
用户1151118
发布2026-01-08 13:32:40
发布2026-01-08 13:32:40
390
举报

单细胞测序技术正在以惊人的速度生成海量数据,但如何从中提取有意义的生物学信息仍是挑战。批次效应、技术噪声和高维稀疏性让传统方法难以同时兼顾细节分辨率和全局结构。加州大学旧金山分校的研究团队另辟蹊径,提出了 CONCORD 框架。这个极简优雅的方法证明:巧妙的数据采样策略,比复杂的深度网络更重要。CONCORD 通过单隐层神经网络和创新的概率采样,同时实现批次校正、去噪和降维。在百万级细胞图谱、跨物种发育轨迹和多模态整合中展现卓越性能,计算效率提升数倍。

问题的本质:采样策略决定学习效果

传统的对比学习方法在处理单细胞数据时面临两难:均匀采样 会忽略稀有细胞亚群,而混合不同批次的细胞又会让模型学习技术偏差而非生物信号。现有方法试图通过复杂的网络架构或辅助损失函数来解决问题,但 CONCORD 的思路截然不同——与其对抗对比学习的敏感性,不如将其转化为优势

CONCORD 的小批次采样策略示意图,展示数据集感知采样和硬负样本采样如何实现高分辨率和批次效应缓解的表征学习
CONCORD 的小批次采样策略示意图,展示数据集感知采样和硬负样本采样如何实现高分辨率和批次效应缓解的表征学习

CONCORD 的小批次采样策略示意图,展示数据集感知采样和硬负样本采样如何实现高分辨率和批次效应缓解的表征学习

CONCORD 的核心是两个巧妙的采样策略:

数据集感知采样将每个小批次限制为主要来自单一数据集的细胞。这样模型在对比时只看到生物学差异,批次特异的技术信号因在不同迭代中不断被打乱而无法稳定编码。这比引入对抗网络或复杂正则化要简洁得多。

硬负样本采样则富集高度相似的细胞作为负样本,迫使模型学习区分细微差异的特征。论文提供了两种实现:kNN 模式基于预构建的邻域图,hcl 模式通过重要性采样在损失函数层面强调难样本。

令人惊讶的是,仅凭单隐层 MLP 和标准对比损失,CONCORD 就超越了需要深层架构的现有方法。这再次印证了一个被低估的真理:数据的组织方式比模型复杂度更关键

CONCORD 框架的技术细节,包括联合概率采样的数学逻辑、数据增强方案以及可选模块
CONCORD 框架的技术细节,包括联合概率采样的数学逻辑、数据增强方案以及可选模块

CONCORD 框架的技术细节,包括联合概率采样的数学逻辑、数据增强方案以及可选模块

模拟验证:拓扑结构的精确恢复

在包含聚类、连续轨迹、分支树和环状结构的模拟数据上,CONCORD 展现出卓越的结构保真度。通过 Betti 数(拓扑学中量化连通性的指标),作者定量证明 CONCORD 能准确还原环路和分支点,而 scVI、PHATE 等方法常引入虚假连接或丢失真实拓扑。

在包含三类簇、复杂轨迹(带环和分支)和层次化分支树的模拟数据上,对比 CONCORD 与其他降维方法的性能
在包含三类簇、复杂轨迹(带环和分支)和层次化分支树的模拟数据上,对比 CONCORD 与其他降维方法的性能

在包含三类簇、复杂轨迹(带环和分支)和层次化分支树的模拟数据上,对比 CONCORD 与其他降维方法的性能

在批次整合测试中,CONCORD 在不平衡批次和低重叠状态下依然稳健,既能对齐共享的细胞状态,又保留批次特异的生物学差异。这种平衡对于整合多实验室、多平台数据至关重要。

在不平衡批次、连续状态转换和多批次场景下,CONCORD 与其他数据整合方法的基准测试对比
在不平衡批次、连续状态转换和多批次场景下,CONCORD 与其他数据整合方法的基准测试对比

在不平衡批次、连续状态转换和多批次场景下,CONCORD 与其他数据整合方法的基准测试对比

线虫发育:超高分辨率的极限挑战

作者整合了秀丽隐杆线虫布里格斯线虫超过 41 万个细胞的胚胎发育图谱,这是验证方法分辨率的终极测试。CONCORD 不仅重建了完整的谱系树,还成功区分了功能对称但解剖镜像的 ASE-L 和 ASE-R 神经元——这两个神经元基因表达极为相似,传统方法几乎无法分离。

应用 CONCORD 于秀丽隐杆线虫和布里格斯线虫的跨物种胚胎发育图谱,展示谱系重建和高分辨率轨迹解析
应用 CONCORD 于秀丽隐杆线虫和布里格斯线虫的跨物种胚胎发育图谱,展示谱系重建和高分辨率轨迹解析

应用 CONCORD 于秀丽隐杆线虫和布里格斯线虫的跨物种胚胎发育图谱,展示谱系重建和高分辨率轨迹解析

更令人印象深刻的是跨物种对齐:尽管两个物种分离已数千万年,CONCORD 在全局嵌入空间中直接匹配对应的细胞类型和发育阶段,无需子集化重对齐。这为比较发育生物学提供了强大工具。

肠道发育:捕捉交织的细胞过程

在小鼠肠道发育数据中,CONCORD 展现了处理复杂生物学系统的能力。肠道上皮细胞同时经历快速细胞周期和渐进分化,传统方法要么被细胞周期主导而掩盖分化信息,要么在回归细胞周期后丢失增殖相关模式。

CONCORD 在哺乳动物肠道发育数据上的表现,展示复杂的层级结构、空间区带化和细胞周期循环
CONCORD 在哺乳动物肠道发育数据上的表现,展示复杂的层级结构、空间区带化和细胞周期循环

CONCORD 在哺乳动物肠道发育数据上的表现,展示复杂的层级结构、空间区带化和细胞周期循环

CONCORD 通过硬负样本采样同时保留了两种结构:细胞周期形成清晰环路,不同肠段和分化阶段的细胞则沿独立轨迹分离。分析还发现,早在胚胎 E13.5 阶段,肠上皮就已显示前后轴向的区域化特征,揭示了发育程序的精确时空调控

跨模态与百万级扩展

CONCORD 的通用性在多模态数据中得到验证。在 scATAC-seq 数据集上,它有效整合了 8 种技术平台的 PBMC 样本;在乳腺癌空间转录组整合中,即使 Xenium 平台与单细胞测序仅共享 307 个基因,CONCORD 依然准确对齐了主要细胞类型。

CONCORD 的多模态适用性和可扩展性验证,包括 scATAC-seq、乳腺癌 Xenium 空间转录组和百万级 Tabula Sapiens 数据集
CONCORD 的多模态适用性和可扩展性验证,包括 scATAC-seq、乳腺癌 Xenium 空间转录组和百万级 Tabula Sapiens 数据集

CONCORD 的多模态适用性和可扩展性验证,包括 scATAC-seq、乳腺癌 Xenium 空间转录组和百万级 Tabula Sapiens 数据集

计算效率更是亮点:在超过 100 万细胞的 Tabula Sapiens 数据集上,CONCORD (hcl) 仅需 9 分钟,而 scVI 需要 46 分钟。极简架构和高效采样机制显著降低了内存占用和运行时间。

局限与启示

CONCORD 依赖于数据集间存在共享的基因共表达结构。当批次效应严重扭曲这些结构时(如单细胞核与全细胞测序整合),性能可能受限。此外,kNN 模式的 PkNN 参数和 hcl 模式的 β 参数需要根据数据复杂度调整,自适应参数选择是未来改进方向。

尽管如此,CONCORD 的价值不容忽视。它证明了采样策略比模型复杂度更重要,也展示了批次校正、降维和去噪可以在统一框架中自然涌现。对于单细胞图谱构建,CONCORD 提供的超高分辨率让我们能够捕捉连续状态转换、并行细胞过程和稀有过渡状态,这对理解发育、疾病和再生至关重要。


参考文献

Zhu, Q., Jiang, Z., Zuckerman, B. et al. Revealing a coherent cell-state landscape across single-cell datasets with CONCORD. Nat Biotechnol (2026). https://doi.org/10.1038/s41587-025-02950-z

代码数据:

https://github.com/Gartner-Lab/Concord


欢迎在评论区分享您对 CONCORD 方法的看法或应用经验。如果您对 AI 药物发现和单细胞分析感兴趣,欢迎关注 MindDance 公众号获取更多前沿内容,也欢迎将文章分享给您的同行。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题的本质:采样策略决定学习效果
  • 模拟验证:拓扑结构的精确恢复
  • 线虫发育:超高分辨率的极限挑战
  • 肠道发育:捕捉交织的细胞过程
  • 跨模态与百万级扩展
  • 局限与启示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档