
Fig. 1: Single-cell dataset size trends over time.

- 图片说明- 左侧为每年发表的包含单细胞数据的论文总数;中间为随时间推移每个数据集中的细胞数量;右侧为每篇单细胞论文中包含的个体数量(补充方法)。- 出版物列表来源于一个精心整理的单细胞研究数据库。- 2021年之后的数据(用星号标记)可能不完整,因此论文数量可能被低估。- 对于两个箱线图,箱子表示中位数和四分位距。- 须线延伸到最远的非异常值数据点。- 单个数据点以点的形式显示。
[div_box]
Fig. 2: Workflow for building reference atlases.

- 图片说明- 图谱构建过程包括从单个数据集构建图谱(上部分;包括数据准备、预处理和整合),以及在图谱构建完成后对其进行管理和共享(下部分;包括图谱注释与评估、共享,以及对图谱中捕获的数据进行更新和扩展)。
图集准备
确定关注的重点
选择数据集
数据集的数量和技术多样性
元数据可用性
人口多样性
细胞类型覆盖范围
研究设计
数据质量
[div_box]
数据协调与预处理
数据预处理
协调样本和主体元数据
协调细胞类型注释并标注未标记的数据集
[div_box]
数据集成
通过设置批次协变量确定集成水平
数据整合的基因选择
选择最优的数据集成策略
[div_box]
图集评估与重新标注
整体图集表示质量的评估
Fig. 3: Workflow for evaluating and improving the atlas.

- 图片说明- 在进行下游任务之前,必须从不同角度评估整合图谱的质量。- 该评估应涵盖生物信息的保留(a)、批次效应校正(b)、参考映射(c)以及图谱的细胞组成(d)。- 如有必要,可以通过修改图谱构建工作流中的各个步骤(e-k)来提高图谱质量(图2)。
对映射新数据的参考质量进行评估
标注整合图谱
[div_box]
当图集完成时:分享和扩展图集
将图集提供给不同的用户群体
Table 1 Different databases and platforms enable sharing of atlas data for different purposes 表1 不同的数据库和平台支持为不同目的共享图集数据

扩展和更新地图集
[div_box]
Fig. 4: Use cases of integrated atlases.

- 图片说明- 图谱中捕获的丰富信息可以通过多种方式提供新的生物学或技术见解,并且可以用作方法开发的基准(a),或者用作分析新的单细胞、空间或批量数据集的参考(b)。- 丰富的信息能够以多种方式提供新的生物学或技术洞见,既可以作为方法开发的基础(a),也可以作为分析新单细胞、空间或批量数据集的参考(b)。
探索图集中的信息
细胞身份及其标志物
基因功能和调控的描述
在不同条件下的分子和细胞变化
指导未来实验设计
[div_box]
开发新的单细胞方法和机器学习模型
[div_box]
以图谱为参考分析新的单细胞、空间或批量数据
将新的单细胞数据投影到图谱空间中
标注细胞身份
与对照人群的比较
跨模态补全
非单细胞数据的分析
[div_box]