Basic Information 英文标题:Asian diversity in human immune cells 中文标题:人类免疫细胞中的亚洲多样性 发表日期:17 April 2025 文章类型:Resource 所属期刊:Cell 文章作者:Kian Hong Kock | Shyam Prabhakar 文章链接:https://www.sciencedirect.com/science/article/pii/S0092867425002028 Highlights Para_01 亚洲免疫多样性图谱:多国多样人群的免疫图谱 自我报告的种族、遗传 ancestry、性别和年龄对分子和细胞的影响 不同人群之间的细胞邻域丰度差异 基于特定人群的功能变异(eQTLs)定位与疾病相关的位点 Summary Para_01 人类多样性与生物医学表型的关系普遍存在,但在单细胞基因组学背景下仍研究不足。 这里,我们介绍了亚洲免疫多样性图谱(AIDA),这是一个多国人类免疫细胞的单细胞RNA测序(scRNA-seq)健康参考图谱。 AIDA 包含来自619名捐赠者的1,265,624个循环免疫细胞,涵盖5个亚洲国家中的7个人群组,以及6个对照组。 尽管人群经常在大陆层面进行比较,但我们发现次大陆多样性、年龄和性别广泛影响了免疫细胞的细胞和分子特性。 这些包括细胞邻域的不同丰度以及与疾病风险、发病机制和诊断相关的细胞群体和基因。 我们发现了影响细胞类型特异性基因表达的功能遗传变异体,这些变异体在非亚洲人群中代表性不足,并有助于解释与疾病相关的变异。 AIDA 使多祖先疾病数据集的分析成为可能,并促进了亚洲及更广泛地区精准医疗的发展。 Graphical abstract Keywords genomics; genetics; single-cell RNA sequencing; human diversity; sub-continental diversity; genetic diversity; immune cells; healthy baseline; eQTL; precision medicine Introduction Para_01 人类在各个方面都是多样的。 我们的分子多样性驱动了细胞特征的差异,而这些差异又影响了我们身体的发育、功能以及对疾病的反应。 个体之间的分子变异并非随机;相反,它与血统、年龄、遗传、性别、环境和生活方式相关,尽管我们并不完全理解这些关系。 一个后果是,在一个群体中有效的分子诊断方法可能在另一个群体中效果不佳。 此外,由于遗传和环境因素的复杂组合,疾病风险、病理过程和药物反应可能因人群而异。 因此,了解人类分子和细胞的变异不仅对于理解人体生物学至关重要,而且对于个性化医疗护理以及从生物医学研究中获得公平的结果也是必不可少的。 Para_02 对人类免疫细胞多样性的研究很有趣,因为血液细胞比例通常用于诊断,血液特征的变化与疾病风险相关,而且免疫表型分析被用来监测诸如艾滋病、白血病和淋巴瘤等疾病。 血液学特征在不同种族中有所不同,部分原因是由于特定人群特有的遗传变异。 然而,大多数现有的研究在分子谱方面提供的细节有限,尤其是在单细胞分辨率上。 Para_03 最近,基于单细胞RNA测序(scRNA-seq)的研究已经检查了美国人群针对系统性红斑狼疮(SLE)的种族特异性免疫特征11,12以及体外病毒感染13,并确定了与全基因组关联研究(GWAS)变异相关的细胞类型特异性表达数量性状位点(eQTLs)14,15,16。 然而,这些研究中的每项研究仅关注一个国家,并且最多涉及两个群体。 更广泛地说,尽管迫切需要,基因组学数据集仍然缺乏多样性。 例如,欧洲血统的人口约占世界人口的15%,但在2021年的NHGRI-EBI GWAS目录中占86%3,并且在Genotype-Tissue Expression (GTEx)项目v8数据集中占85%。 为了使全球社区受益最大化,重要的是要在参考细胞图谱和基因组资源中纳入并表征人类多样性。 Para_04 为了解决这一挑战,我们对来自亚洲5个国家7个人群组的619名健康供体的外周血单核细胞(PBMCs)进行了单细胞RNA测序(scRNA-seq)。亚洲大陆居住着全球约60%的人口。 我们的亚洲免疫多样性图谱(AIDA)包括来自印度、日本、韩国和泰国的捐赠者,以及自报为华裔(SG_华人)、马来裔(SG_马来)或印度裔(SG_印度)的新加坡捐赠者。 AIDA队列涵盖了性别平衡和广泛的成人年龄范围。 我们研究了人类多样性与免疫表型中的细胞和分子变异之间的关系,包括细胞类型比例、细胞邻域丰度和特定细胞类型基因表达谱。 自我报告的种族、遗传祖先和性别对细胞亚型比例的影响相当,而年龄、体重指数(BMI)或吸烟状态解释的方差通常较低。 此外,自我报告的种族调节了年龄和性别对细胞和分子特征的影响。 大约7%的AIDA eQTL在非亚洲1,000基因组超级人群中具有小于0.05的次要等位基因频率(maf)。 这些eQTL包括与全基因组关联研究(GWAS)位点共定位的变异。 我们的数据集可通过人类细胞图谱(HCA)和陈·扎克伯格(CZ)CELLxGENE24数据门户获得,并已用于人类多样性的算法开发以及生物学通路分析,如X染色体失活逃逸和遗传对选择性剪接的影响。 我们的发现提供了关于遗传祖先、年龄、自我报告的种族、性别和遗传变异与疾病相关免疫表型之间关系的基本见解,并加强了对多样化人群进行功能基因组学分析的科学依据。 Results scRNA-seq atlas of circulating immune cells from diverse population groups 来自不同人群的循环免疫细胞的单细胞RNA测序图谱
Para_01 我们检查了CZ CELLxGENE Census(版本2023-12-15),其中包含了最大的标准化单细胞数据集合,包括对于疾病比较重要的健康数据集。 在所有26个健康的血液主要数据集中(不包括AIDA),62.4%的细胞来自欧洲捐赠者,而自报种族信息未知的细胞占32.1%(图1A和S1A)。 这表明在全球人口比例代表不足以及在考察人群方面缺乏细致度的情况下,单细胞参考集合的初始阶段存在问题。 我们试图了解人类多样性的影响,重点关注亚大陆人口群体之间的变异对AIDA队列的单细胞基因组谱的影响。 对于AIDA队列中的每个619名捐赠者(图1B;表S1)和6名对照组成员,我们进行了5' scRNA-seq、B细胞受体测序(BCR-seq)、T细胞受体测序(TCR-seq)和基因分型(图S1B-S1E)。 为了尽量减少技术干扰因素,我们在5个研究站点之间统一了捐赠者选择标准、样本处理和实验协议(图1C),使用遗传多重化从混合样本中生成单细胞文库,并采用集中式数据处理管道(图S1B)。 对捐赠者的Illumina GSAv3基因分型数据进行主成分分析(PCA),突显了AIDA队列中遗传祖先的多样性(图1D)。 图片说明
◉ 图1. AIDA中的人类多样性 (A) 饼图表示AIDA中的细胞和其他健康血液(不包括脐带血和静脉血)在CZ CELLxGENE普查2023-12-15版本中的主要数据集。圆圈的半径与细胞数量成正比,切片的颜色由自报的种族元数据决定。(B) AIDA捐赠者人口统计(SG:新加坡人)。(C) 研究地点位置。改编自BioRender模板(出版许可KZ26TPRFSH)。(D) 来自AIDA Illumina GSAv3基因型PCA的前三个PC的图;颜色指示捐赠者的自报种族。另见图S1和表S1。◉ ,
图片说明
◉ 图 S1. 来自健康亚洲捐赠者的循环免疫细胞的单细胞 RNA 测序参考图谱,与图 1 和图 2 相关(A)类似于图 1A 中的饼图,表示(左)AIDA 中的细胞,以及(右)CZ CELLxGENE Census 版本 2023-12-15 中其他健康血液(不包括脐带血和静脉血)原始数据集中的所有细胞。圆圈半径与相应数据集中细胞数量成正比,每个饼图切片根据自我报告的种族元数据着色。(B)研究流程。(C)按国家(IN,印度;JP,日本;KR,韩国;SG,新加坡;TH,泰国)着色的 AIDA 捐赠者年龄直方图。(D)AIDA 数据冻结版 2 库中(上)每个细胞检测到的基因数(NODGs)的对数分布(10 倍),以及(下)每个细胞中线粒体 UMIs 占所有 UMIs 的百分比(pMito)的对数分布。箱线图通过最粗的中心水平线表示中位数,底部和顶部的箱子分别表示第一和第三四分位数,须表示为四分位距的 1.5 倍。异常值显示为单个点。(E)每个国家每个捐赠者中高置信度(上)BCR 和(下)TCR 条形码的分布。(F)与图 2A 中相同的 UMAP 图,按捐赠者所在国家划分。
Para_01 去除双联体和细胞类型特异性质量控制以去除低质量细胞后,我们获得了 1,265,624 个循环免疫细胞。 我们鉴定了 8 种主要的免疫细胞类型:B 细胞、CD34+ 造血干细胞和祖细胞(HSPC)、髓系细胞、自然杀伤细胞(NK)、浆细胞、浆样树突状细胞(pDC)、血小板和 T 细胞(图 2A)。 在经过批次校正后的 28 个基因表达空间中的细胞分布,在所有研究地点之间大体上是一致的(图 S1F)。 图片说明
◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。◉ 图2。年龄、性别和自我报告的种族的影响(A)1,265,624个PBMC按主要细胞类型标记的UMAP基因表达。(B)散点图显示了pDC比例与年龄的关系。蓝色线表示线性回归线,灰色带表示95%置信区间。(C-H)箱型图描述了(C)B和(D)NK细胞比例在女性/男性中的分布以及(E)B、(F)髓系、(G)NK和(H)T细胞比例。对于(C)和(D),使用双尾t检验,性别协变量(log10(比例) ∼ 年龄 + 性别 + 自我报告的种族);对于(E)至(H),使用自我报告的种族协变量(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族)。在所有图表中,箱型图通过最粗的中心水平线表示中位数,底部和顶部框分别表示第一和第三四分位数,须表示为四分位距的1.5倍,异常值用单个点表示。(I-K)UMAP图,根据log2(富集度)对细胞进行着色,范围为500个细胞邻域,分别为(I)女性与男性比较,(J)50-77岁供体与年轻供体比较,以及(K)SG马来供体相对于其他供体。感兴趣细胞类型的指示线为虚线。另见图S1。
Para_01 我们检查了女性/男性性别、年龄和自我报告的种族与细胞类型比例(相对于每位供体的所有PBMC,使用广义线性模型:log10(比例)∼年龄 + 性别 + 自我报告的种族)的关系。 pDC比例随年龄下降(N = 438,自由度[df] = 430,t = −4.93,双尾t检验p = 1.2e−6,图2B)。 B细胞在女性中更为丰富(N = 562,df = 554,t = −6.76,双尾t检验p = 3.56e−11;图2C),而NK细胞比例在男性中更高(N = 562,df = 554,t = 4.41,双尾t检验p = 1.26e−5;图2D)。 AIDA数据集重现了已知的循环免疫细胞在年龄29和性别30方面的差异。 Para_02 一个人类变异分析的注意事项是遗传变异和环境因素经常混淆。 在这里,自我报告的种族的影响可能代表了遗传效应和相关的环境及生活方式因素的结合,所有这些因素都可以导致表型变异。 SG_马来捐赠者显示B细胞比例升高(log10(比例) ∼ 年龄 + 性别 + 个人自我报告的种族(例如,SG_马来),N = 562,df = 558,t = 3.02,双尾t检验p = 0.00269;图2E)。 而泰国捐赠者则表现出较低的髓系细胞比例(t = −3.21,双尾t检验p = 0.00139;图2F)。 SG_印度捐赠者的NK细胞较少(t = −4.57,双尾t检验p = 5.91e−6;图2G)。 韩国捐赠者则表现出较低的T细胞比例(t = −2.98,双尾t检验p = 0.00298;图2H)。 Para_03 外周血细胞类型的比率可以作为疾病的诊断标志,例如单核细胞与淋巴细胞的比例(活动性结核病),相对单核细胞比例(慢性髓样单核细胞白血病、急性髓系白血病)以及淋巴细胞丰度(系统性红斑狼疮)。我们发现,在我们的单细胞RNA测序和全血细胞计数数据中,泰国供体的单核细胞比例平均较低(双尾Wilcoxon秩和检验p = 3.08e-4和p = 3.28e-7)(图S2A)。我们的研究结果表明,在确定诊断基线时考虑自我报告的种族的重要性。 We found that monocyte proportions were lower on average in Thai donors in both our scRNA-seq (two-tailed Wilcoxon rank-sum p = 3.08e−4) and complete blood count (CBC) data (two-tailed Wilcoxon rank-sum p = 3.28e−7) (Figure S2A). 图片说明
◉ 图 S2。人类多样性对 AIDA PBMCs 和 AIDA 细胞类型注释元数据的影响,与图 3 相关(A)根据捐赠者自我报告的种族分类,在(上)单核细胞占所有淋巴细胞加单核细胞的比例的对数分布(下)全血细胞计数(CBC)数据中。(B)和(C)AIDA 中 PBMC 细胞类型聚类层次结构,用主要标记基因表示,分别为(B)所有 PBMC 和(C)ILC、NK 和 T 细胞亚型。橙色框表示细胞类型,浅棕色框表示细胞亚型,深棕色框表示更精细的集群身份。(D)AIDA PBMCs 的基因表达 UMAP,用 AIDA 三级细胞类型注释标记。(E)CD8+ T、γδT、ILC 和 NK 细胞的 UMAP,用 AIDA 四级细胞类型注释标记。(F)和(G)特征图,分别显示(F)CD27 和 IGHM 超过 B 细胞的 UMAPs,以及(G)代表免疫细胞梯度(GZMK、GZMB、FCER1G 和 KLRC2)的特征,叠加在 CD8+ T、γδT、ILC 和 NK 细胞的 UMAPs 上。颜色的强度对应于每细胞的对数归一化基因计数。另见表 S2。◉ p 值表示来自双尾 Wilcoxon 秩和检验的结果。◉ (B)和(C)AIDA 中 PBMC 细胞类型聚类层次结构,用主要标记基因表示,分别为(B)所有 PBMC 和(C)ILC、NK 和 T 细胞亚型。◉ 橙色框表示细胞类型,浅棕色框表示细胞亚型,深棕色框表示更精细的集群身份。◉ (D)AIDA PBMCs 的基因表达 UMAP,用 AIDA 三级细胞类型注释标记。◉ (E)CD8+ T、γδT、ILC 和 NK 细胞的 UMAP,用 AIDA 四级细胞类型注释标记。◉ (F)和(G)特征图,分别显示(F)CD27 和 IGHM 超过 B 细胞的 UMAPs,以及(G)代表免疫细胞梯度(GZMK、GZMB、FCER1G 和 KLRC2)的特征,叠加在 CD8+ T、γδT、ILC 和 NK 细胞的 UMAPs 上。◉ 颜色的强度对应于每细胞的对数归一化基因计数。◉ 另见表 S2。
Para_03 单细胞测序的一个主要优势是可以在高分辨率下表征不同的细胞群。 通过对转录组邻域的富集分析,我们识别出了比上述主要细胞类型分析中更细致的趋势。 例如,虽然B细胞在女性供体中更为丰富(图2C),但这一趋势并不均匀,对于幼稚B细胞更为明显(图2I)。 相反,与年轻供体相比,≥50岁的个体中的CD8+ T幼稚细胞普遍减少(图2J)。 SG马来人供体中γδT(γδT)细胞的富集也不均匀(图2K)。 Cell-type annotation and transcriptomic gradients 细胞类型注释和转录组梯度
Para_01 为了探究更精细的细胞身份,我们分别分析了三个广泛的细胞群体——B(图3A)、pDC和髓系(包括常规树突状细胞[cDC])(图3B),以及先天性淋巴样细胞(ILC)、NK和T细胞(图3C和3D)。 对于每个群体,我们独立地进行特征选择、数据整合和亚聚类,以利用区分感兴趣的细胞亚型的相关特征(图3A–3D、S2B和S2C)。 对于ILC、NK和T细胞,在一轮亚聚类后,我们将CD4+ T细胞和双阴性T细胞(dnT)从所有其他细胞中分离出来(图3C),并将这两组细胞分别整合和重新聚类。 然后,我们基于标记基因(图S2B和S2C;表S2)和TCR条形码的存在(图S1E)对所有细胞群体的所有亚簇进行了注释。 我们定义簇身份为单个亚簇的描述,而细胞亚型则是通过将亚簇手动合并到已知亚型中来定义的。 图片说明
◉ 图3。人类多样性的关系与细胞亚型比例(A-D)。显示(A)B;(B)pDC和髓系;(C)CD4+ T和dnT;以及(D)CD8+ T、γδT、ILC和NK亚簇标记的细胞亚型。图。(E)箱线图显示了在控制所有其他协变量后,新加坡供体的亚型比例增量方差由年龄、BMI、自报种族、性别或吸烟状况解释的情况,并附有成对双尾Wilcoxon秩和p值(值<0.05)。图。(F和G)散点图显示(F)CD8+ T幼稚细胞比例与年龄的关系(所有AIDA供体),以及(G)MAIT细胞比例与基因型PC1的关系(新加坡供体)。图。(H-J)箱线图显示(H)IGHMlo记忆B,(I)cDC2,以及(J)Treg细胞比例。(K)箱线图显示CD16+ NK比例在自报种族和女性/男性中的分布。(L)散点图显示CD4+ T幼稚细胞比例与年龄的关系。散点图叠加了线性回归线,灰色带表示95%置信区间。双尾t检验p值用于(H-J)自报种族协变量(log10(比例)~年龄+性别+个人自报种族),(K)性别和个人群体之间的交互项,以及(L)两个群体的比较。另见图S2-S4和表S2-S4。◉ ,
Para_01 我们识别出了稀有的细胞亚型,如dnT(所有细胞的0.04%),cDC1(0.04%)和非典型B35(0.4%)(图3A-3C和S2B-S2D)。 我们进一步阐明了稀有集群的身份,包括SCART1hi ILC(0.02%)和XCL1hi ILC(0.03%)(图S2E)。 这些稀有细胞群体的鉴定证明了我们图谱的分辨率。 Para_02 为了补充这种离散的、分类的细胞注释方法,我们检查了连续的转录组梯度。 这些梯度包括记忆B细胞中的IGHM梯度(图S2F);CD8+ T记忆细胞和γδT细胞中相反的GZMB和GZMK梯度,GZMB水平升高标记了更具细胞毒性的亚群;以及CD16+ NK细胞中相反的FCER1G和KLRC2梯度(图S2G)。 Relationships of human diversity with cell subtype proportions 人类多样性与细胞亚型比例的关系
Para_01 免疫细胞比例作为疾病标志物具有广泛兴趣11,39,但可能受到患者人口统计学特征的影响。因此,我们研究了人类多样性与细胞亚型比例之间的关系。 我们首先确认了我们的单细胞RNA测序数据集中单核细胞的比例与匹配的CBCs一致(图S3A-S3C),这表明我们图谱中的细胞类型比例推断植根于实际的血液学比例。 图片说明
◉ 图 S3。人类多样性对细胞亚型比例的影响,与图 3 相关。(A-C)散点图显示了单核细胞占所有淋巴细胞加单核细胞的比例(对数转换),在 scRNA-seq 数据集中的比例(y 轴)与匹配的全血细胞计数(CBCs)中的比例(x 轴),分别针对新加坡、韩国和泰国的 AIDA 受试者。(D)箱线图展示了在新加坡受试者中,通过年龄、BMI、基因祖先(由前三个基因型主成分表示)、性别或吸烟状态解释的细胞亚型比例增量方差,在控制所有其他协变量后的情况,并标注了两两双尾 Wilcoxon 秩和检验的 p 值(p<0.05)。(E)散点图展示了 CD4+ 细胞毒性 T 细胞(CD4+_T_cyt)比例与所有 AIDA 受试者的供体年龄之间的关系。(F)箱线图展示了每个受试者的所有 CD4+ T 细胞中调节性 T 细胞(Treg)比例在所有人群组中的分布情况。(G)箱线图展示了每个受试者的所有外周血单核细胞(PBMCs)中 Treg 细胞比例在所有人群组中的分布情况,数据整合使用了 Harmony46 并重新聚类和重新注释了细胞。图(F)和(G)中的双尾 t 检验 p 值是在一个模型中,log10(比例) ∼ 年龄 + 性别 + 自报种族的情况下,自报种族协变量的值。(H)箱线图展示了在日本、韩国和新加坡研究地点中每个对照样本每个实验批次中所有 PBMCs 中 Treg 细胞的比例,每个地点至少分析了 10 个实验批次。图(F)和(G)中的所有两两双尾 Wilcoxon 秩和检验 p 值均被标出。散点图上叠加了蓝色的线性回归线,灰色带表示 95% 置信区间。箱线图通过最粗的中心水平线表示中位数,底部和顶部的箱子分别表示第一和第三四分位数,须条表示 1.5 倍的四分位距。异常值用单个点表示。◉ (A)新加坡的散点图。◉ (B)韩国的散点图。◉ (C)泰国的散点图。◉ (D)箱线图。◉ (E)散点图。◉ (F)箱线图。◉ (G)箱线图。◉ (H)箱线图。
Para_01 我们通过分析细胞亚型比例与协变量(年龄、BMI、遗传祖先、自报种族、性别或吸烟状态)的相关性来评估人类人口统计学的相对影响。 为了进行这种分析,我们重点关注了新加坡捐赠者,以尽量减少不同研究地点技术差异的影响。 我们评估了在控制所有其他协变量后,一个协变量所解释的增量方差。 我们使用前三个基因型PC(图1D)以无标签、连续的方式表示遗传祖先。 我们分别在回归模型中检查了自报种族(图3E)和遗传祖先(图S3D)。 任何人类多样性-细胞亚型组合中,解释增量方差最高的情况是CD8+ T幼稚细胞比例随年龄下降(增量R2 = 0.271,N = 176)(图3F),这与先前的报告一致。 更广泛地说,多种亚型的比例与年龄显著相关。 例如,CD4+ T细胞毒性细胞的比例随年龄增加(所有AIDA捐赠者的log10(比例) ~ 年龄,N = 501,df = 499,t = 4.86,p = 1.57e-6;图S3E),并且细胞毒性CD4+ T细胞因其在百岁老人中的高度丰富而备受关注。 细胞毒性CD4+ T细胞因其在超级百岁老人中的高度丰富而备受关注。 Para_02 总体而言,然而,自我报告的种族、遗传祖先和性别各自解释的亚型比例变化方差比年龄、BMI或吸烟更多(N = 22,成对双尾Wilcoxon秩和p < 0.05,图3E和S3D)。 例如,粘膜相关不变T(MAIT)细胞亚型是遗传祖先解释的高增量方差的亚型之一(增量R2 = 0.0661,N = 174),并且MAIT细胞比例与基因型PC1显著相关(对于新加坡供体,log10(比例)∼基因型_PC1,N = 174,df = 172,t = -4.73,双尾t检验p = 4.75e-6;图3G)。 Para_03 我们发现了多个自我报告的种族与不同细胞亚群比例相关的例子(表 S3)。 SG 马来捐赠者的低 IGHM 记忆 B 细胞比例较高(对数10比例 ~ 年龄 + 性别 + 个人自我报告的种族(例如,SG 马来),N = 562,df = 558,t = 2.74,双尾 t 检验 p = 0.00628;图 3H)。 而泰国捐赠者的 cDC2 比例较低(N = 560,df = 556,t = −3.71,双尾 t 检验 p = 2.31e−4;图 3I)。 最显著的是,我们在韩国捐赠者中发现了更低的调节性 T 细胞(Treg)比例(N = 562,df = 558,t = −14.8,双尾 t 检验 p < 2e−16;图 3J)。 即使我们通过评估相对于 CD4+ T 细胞的 Treg 比例来控制可能的 T 细胞比例跨群体差异时,这种效应仍然存在(t = −14.4,双尾 t 检验 p < 2e−16,图 S3F)。 当我们使用不同的算法(Harmony46)进行数据整合后重新聚类和注释细胞时,我们也观察到了类似的结果(t = −14.4,双尾 t 检验 p < 2e−16,图 S3G)。 我们的对照样本在来自日本、新加坡或韩国研究地点的 Treg 比例上没有显示出显著差异(成对双尾 Wilcoxon 秩和检验 p > 0.05,图 S3H)。 Para_04 为了证实上述自我报告的种族与免疫亚群比例之间的关联,我们使用相同的线性模型分析了来自独立队列(新加坡老龄化研究第二波[SLAS-2]47)的已发表流式细胞术数据(表S4)。 首先,我们确认了MAIT细胞的比例在两个数据集中SG_中国人高于SG_印度人捐赠者(SG_印度人系数估计值与SG_中国人比较;AIDA:-0.315,N=198,df=193,t=-4.71,双尾t检验p=4.67e-6;SLAS-2:-0.274,N=814,df=809,t=-3.46,双尾t检验p=5.7e-4;图S4A)。 接下来,我们检查了54个自我报告种族的系数估计值的效果大小一致性(log10(比例)∼年龄+性别+个人自我报告的种族,即SG_中国人、SG_马来人或SG_印度人)。 效果大小在AIDA和SLAS-2之间高度相关(皮尔逊相关r=0.652,N=54,df=52,t=6.20,双尾t检验p=9.41e-8,图S4B)。 这种在两种模式和独立队列中的跨平台一致性支持了我们在循环免疫细胞中发现的自我报告种族相关的细胞亚型特征。 Para_04 我们假设自我报告的种族、年龄和性别之间的相互作用可能会影响亚型比例。 我们将上述线性模型扩展到包括所有成对交互项。 鉴于统计检验数量庞大,我们在所有交互项分析的所有p值上进行了Benjamini-Hochberg多重检验校正。 虽然CD16+ NK比例在男性中通常较高,但这一效应在泰国供体中并不存在(N = 562,df = 555,t = -4.27,双尾t检验p = 2.25e-5用于泰国供体与其它供体模型中的交互项,错误发现率(FDR)= 1.01e-3;图3K和S4C)。 类似于我们上面的Treg分析,在使用Harmony整合后的细胞类型重新注释后,我们重现了这一发现(t = -4.27,双尾t检验p = 2.27e-5,FDR = 2.72e-4;图S4D)。 这些结果提出了一个引人入胜的可能性,即不同人群之间可能存在特定细胞类型的性激素活性差异或性染色体基因调控差异。 Para_05 我们还发现了自我报告的种族和年龄之间的相互作用:与新加坡华人供体相比,韩国和新加坡马来供体的CD4+ T初始细胞比例随着年龄的增长而显示出更急剧的下降(N = 562,df = 543;t = −3.15,双尾t检验p = 0.00174,年龄-韩国相互作用的FDR = 0.0392;t = −3.07,双尾t检验p = 0.00222,年龄-新加坡马来相互作用的FDR = 0.0466;两者均与新加坡华人供体进行比较;图3L和S4C所示)。据报道,在丙型肝炎病毒感染患者和系统性红斑狼疮患者中CD4+ T初始细胞水平降低。鉴于不同人群和年龄段之间CD4+ T初始细胞比例的差异(图3L),在确定参考范围时需要考虑人类多样性的这两个维度。 减少的CD4+ T初始细胞水平已在丙型肝炎病毒感染患者49和系统性红斑狼疮患者11中报道。鉴于不同人群和年龄段之间CD4+ T初始细胞比例的差异(图3L),在确定参考范围时需要考虑人类多样性的这两个维度。 Cell neighborhood signatures of human diversity 人类多样性的细胞邻域特征
Para_01 我们利用MiloR50来检测基因表达空间中细胞邻域在人类多样性维度上的差异丰度,从而利用我们的图谱的单细胞分辨率。作为对照,我们检查了男性和女性之间的邻域丰度。在男性中,大多数幼稚B细胞邻域被耗尽(MiloR空间FDR < 0.1,图S5A),而许多CD16+ NK细胞邻域则被富集(空间FDR < 0.1,图4A)。这与我们的细胞类型分析(图2C、2D、3K和S4D)以及先前报道的B细胞和NK细胞类型的丰度模式一致。30,51 图片说明
◉ 图 S5。人类多样性的细胞邻域特征,与图 4 相关(A)(左)蜂巢图和(右)基因表达 UMAP 描绘了男性与女性中 B 细胞邻域的富集情况。◉ (B)(左)蜂巢图和(右)UMAP 描绘了 50 岁及以上捐赠者与年轻捐赠者中 pDC 和髓系细胞邻域的富集情况。◉ (C 和 D)蜂巢图描绘了 50 岁及以上捐赠者与年轻捐赠者中(C)CD8+ T、γδT、ILC 和 NK 邻域以及(D)(左)CD4+ T 和 dnT 细胞邻域的富集情况。◉ (D)(右)在 UMAP 中突出显示的细胞,对应于 50 岁及以上捐赠者与年轻捐赠者中最缺乏的 CD4+ T 和 dnT 细胞邻域。◉ (E)(左)蜂巢图和(右)UMAP 描绘了基于对所有 AIDA 捐赠者分析的 SG_Malay 捐赠者中 CD8+ T、γδT、ILC 和 NK 细胞邻域的富集情况。γδT 细胞用虚线表示。◉ 对于描绘细胞邻域富集的 UMAP 图,每个细胞根据其被分组的所有重叠 MiloR 细胞邻域的 log2(平均倍数变化) 值进行着色。橙色色调表示感兴趣的多样性维度中的细胞邻域富集,而蓝色色调表示细胞邻域的缺失。◉ 更深的颜色对应更高的富集或缺失幅度,上限为 log2(平均倍数变化) = |2|。对于蜂巢图,每个点对应一个细胞邻域。细胞邻域根据邻域内的主要细胞类型注释进行分类。◉ 红色点(表示该多样性维度下邻域的缺失)和蓝色点(表示邻域的富集)对应空间 FDR 值 < 0.1。
图片说明
◉ 图4。人类多样性的细胞邻域特征(A和B)展示CD8+ T、γδT、ILC和NK邻域富集情况的基因表达UMAP,分别显示(A)男性与女性,以及(B)(左)≥50岁供体与年轻供体之间的差异,并且(B)(右)展示CD4+ T和dnT邻域在≥50岁供体与年轻供体中的富集情况。(C)展示≥50岁供体与年轻供体中最耗尽的CD4+ T邻域中前5个上调基因和前5个下调基因(与所有其他CD4+ T幼稚细胞相比)的散点图。(D和E)(左)UMAP和(中)蜂群图展示邻域富集情况,以及(右)展示最富集邻域中前5个上调和前5个下调基因(与感兴趣亚型的所有其他细胞相比)的散点图。(D)展示SG_Malay供体的pDC和髓系细胞邻域富集情况。(E)展示SG_Indian供体的B细胞邻域富集情况。UMAP中的细胞根据它们属于的所有重叠MiloR细胞邻域的log2(平均倍数变化)值着色,较深的颜色对应更高的富集或耗尽幅度。用虚线表示感兴趣的细胞类型。在(A)-(C)中的分析使用了所有AIDA供体的数据,橙色色调表示邻域富集,而蓝色色调表示耗尽,上限为log2(平均倍数变化)= |2|。在(D)和(E)中的分析仅针对新加坡供体进行,黄绿色色调表示邻域富集,而赭石色调表示耗尽,上限为log2(平均倍数变化)= |1|。对于蜂群图,每个点代表一个细胞邻域,并根据邻域内的主要细胞类型注释对邻域进行分类。红色(感兴趣的多样性维度的邻域耗尽)或蓝色(富集)的点对应于空间FDR < 0.1。另见图S5。◉ 图4。人类多样性的细胞邻域特征(A和B)展示CD8+ T、γδT、ILC和NK邻域富集情况的基因表达UMAP,分别显示(A)男性与女性,以及(B)(左)≥50岁供体与年轻供体之间的差异,并且(B)(右)展示CD4+ T和dnT邻域在≥50岁供体与年轻供体中的富集情况。◉ (C)展示≥50岁供体与年轻供体中最耗尽的CD4+ T邻域中前5个上调基因和前5个下调基因(与所有其他CD4+ T幼稚细胞相比)的散点图。◉ (D和E)(左)UMAP和(中)蜂群图展示邻域富集情况,以及(右)展示最富集邻域中前5个上调和前5个下调基因(与感兴趣亚型的所有其他细胞相比)的散点图。◉ (D)展示SG_Malay供体的pDC和髓系细胞邻域富集情况。◉ (E)展示SG_Indian供体的B细胞邻域富集情况。◉ UMAP中的细胞根据它们属于的所有重叠MiloR细胞邻域的log2(平均倍数变化)值着色,较深的颜色对应更高的富集或耗尽幅度。◉ 用虚线表示感兴趣的细胞类型。◉ 在(A)-(C)中的分析使用了所有AIDA供体的数据,橙色色调表示邻域富集,而蓝色色调表示耗尽,上限为log2(平均倍数变化)= |2|。◉ 在(D)和(E)中的分析仅针对新加坡供体进行,黄绿色色调表示邻域富集,而赭石色调表示耗尽,上限为log2(平均倍数变化)= |1|。◉ 对于蜂群图,每个点代表一个细胞邻域,并根据邻域内的主要细胞类型注释对邻域进行分类。◉ 红色(感兴趣的多样性维度的邻域耗尽)或蓝色(富集)的点对应于空间FDR < 0.1。◉ 另见图S5。
Para_01 此外,我们检查了≥50岁的供体中的小区差异丰度(约占我们队列的∼25%,图S1C)与年轻供体之间的区别。我们确定了在CD16+单核细胞中富集而在pDCs和CD8+初始T细胞中减少的小区,这些小区属于年长供体(空间FDR < 0.1,图4B、S5B和S5C),这与我们的细胞类型分析(图2B和3F)以及先前的报道一致。44,52,53 我们确定了在CD16+单核细胞中富集而在pDCs和CD8+初始T细胞中减少的小区,这些小区属于年长供体(空间FDR < 0.1,图4B、S5B和S5C),这与我们的细胞类型分析(图2B和3F)以及先前的报道一致。44,52,53 Para_02 我们随后识别了超出文献描述之外的与年龄相关的特征。多个CD16+ NK区域表现出FCER1Glo和KLRC2hi特征,在老年供体中显著富集(空间FDR < 0.1,图4B和S5C)。我们的分析表明,在最近通过单细胞RNA测序表征的一组NK细胞中存在年龄偏差,这些细胞被定义为适应性NK细胞。 Para_03 此外,我们发现,在年龄≥50岁的供体中,SOX4表达升高(相对于其他CD4+ T初始细胞)的CD4+ T初始细胞邻域是最耗尽的CD4+ T邻域(log2(倍数变化) = -1.50,空间FDR = 1.61e-12;图4B、4C和S5D)。 这种基于邻域的结果比文献中报道的CD4+ T初始细胞老化特征51,53以及我们在细胞亚型分析中看到的结果(图3L)更为精细。 这也与OneK1K的一项发现一致,即具有高度SOX4表达且在转录上不同于CD4+ T初始细胞和中央记忆细胞的CD4+ T亚型细胞数量随年龄增长而减少。 Para_04 我们测试了迄今为止未被探索的自我报告种族特征,重点关注新加坡捐赠者以尽量减少不同研究地点的技术差异带来的混淆。 与其它CD14+单核细胞相比,SG_马来捐赠者表现出CD14+单核细胞群落的富集(对数倍变化= 1.97,空间FDR = 2.28e-7),其GBP1、GBP4、GBP5、WARS(干扰素诱导基因54,55)和CXCL10(干扰素诱导趋化因子)表达升高(图4D)。 大多数γδT GZMBhi群落也在SG_马来捐赠者中富集(空间FDR < 0.1,图S5E)。 与其它CD14+单核细胞相比,SG_印度捐赠者表现出幼稚B细胞群落的富集(对数倍变化= 0.938,空间FDR = 1.00e-3),ACTG1和PLD4表达升高且CD69水平降低(图4E)。 PLD4是IGMhi过渡性B细胞的标记基因56,而CD69是淋巴细胞活化的早期标志物57,这表明该SG_印度富集区域中的细胞可能处于前体样状态。 这些例子突显了只能在群落丰度层面而非细胞亚型分辨率上才能观察到的性别、年龄和自我报告种族之间的差异。 Molecular variation across population groups 群体间的分子变异
Para_01 我们接下来研究了自我报告的种族对细胞亚型特异性基因表达的影响。 我们使用 edgeR58 来检测基于每个供体的每个细胞亚型聚集的伪批量转录组中的差异表达基因(DEGs),重点关注新加坡的供体,以尽量减少与研究地点相关的技术变异的混淆。 Para_02 我们鉴定了在多种细胞亚型中表现出一致的自报族裔相关表达模式的基因。例如,UTS2 在最多的细胞亚型中差异表达(16 种亚型,与 KANSL1、NSF 和 PPDPF 一起;图 5A;表 S5)。 UTS2 编码一种具有强烈血管收缩作用的环状肽,59 并且在英国生物银行的转录组全关联研究中与基础代谢率、体脂百分比和舒张压相关,60 这促使未来研究探索通过单细胞 RNA 测序推断的分子变异与族群间表型变异之间的关系。 图片说明
◉ 图5 分析不同人群的分子变异(A)散点图展示了UTS2在每种新加坡自报族裔细胞亚型中的表达量与新加坡其他捐赠者之间的edgeR对数倍变化与edgeR对数平均计数百万的关系。(B)箱线图展示了CD14+单核细胞中per-donor伪批量FCER1A表达值的对数10转换,该值通过总独特分子标识符(UMIs)归一化(加上1e-7的伪计数),每个点代表一个捐赠者。(C)火山图展示了SG马来捐赠者与新加坡其他捐赠者CD14+单核细胞中差异表达基因的edgeR-log10(p值)与edgeR对数倍变化的关系。红色标记且标注了基因名称的点FDR小于0.05。(D)基因集富集分析(GSEA)点图展示了基于GSEA p值排名前五的上调或下调(分别为正或负富集分数)基因本体(GO)生物过程基因集,对应于(C)。点的大小("计数")表示核心富集基因的数量,点的颜色由FDR决定。另见图S6和表S5。
Para_02 为了验证我们DEG发现的稳健性,我们将AIDA表达倍数变化值与基于新加坡供体全血的微阵列研究结果进行了比较(表S5)。 我们在两个数据集之间识别出了74.2%的倍数变化符号一致性(皮尔逊相关系数r = 0.560,t = 18.1,df = 716,p < 2.2e-16;图S6A), 而在仅考虑所有AIDA比较中FDR < 0.05的AIDA倍数变化值时,一致性增加到98.3%(r = 0.644,t = 9.03,df = 115,p = 4.84e-15;图S6B)。 这表明,在不同队列中,自我报告的种族相关的DEGs得到了正交验证,尽管测定方法和细胞组成存在差异。 图片说明
◉ 图 S6。按图 5 分组的人群特异性分子变异(A 和 B)散点图显示了 AIDA 假bulk PBMC 单细胞 RNA 测序 edgeR log2(倍数变化[FC])值(y 轴)与来自新加坡综合基因组学研究(iOmics)全血微阵列数据集61的 log2(FC)值(x 轴)之间的关系,(A)所有达到差异表达分析表达阈值的 AIDA 基因,以及(B)AIDA 基因具有经 Benjamini-Hochberg 校正(针对所有比较)后的 FDR < 0.05 差异表达分析。各点根据新加坡人群组之间的成对比较着色。(C)CD14+ 单核细胞中每供体假bulk FCER1A 表达值的对数转换值在新加坡自报种族分类中标准化(总UMIs 加上1e−7的伪计数)。箱型图展示了新加坡供体chr1_159288755_G_A基因型的分布情况。(D 和 F)火山图显示了在(D)SG_华人供体中的 CD16+ 自然杀伤细胞和(F)SG_印度供体中的 MAIT 细胞相对于其他新加坡供体的差异表达基因的 edgeR -log10(p 值)与 edgeR log2(倍数变化)的关系。用红色标记的点具有 FDR < 0.05,是根据在自报种族-细胞亚型组合中分析的基因的 p 值进行的 Benjamini-Hochberg 校正。用基因名称标记的点具有 FDR < 0.05,并且 log2(倍数变化)值 ≥ |0.75|。(E 和 G)基于 GSEA p 值的约前5个上调或下调(GO 生物过程基因集的正或负富集分数)的基因集富集分析(GSEA)点图,分别对应于(D)和(F)。(H)(左)ZBTB7A 转录因子(TF)结合位点基序(Catalog of Inferred Sequence Binding Preferences [CIS-BP]64)序列 ID M02914_2.00),(中间和右侧)箱型图展示每个新加坡供体的所有调节性 T (Treg) 细胞中 ZBTB7A 调控网络 AUCell 得分的分布情况。标记了性别与女性比较的 FDR。箱型图显示了 SCENIC GRNBoost2 试验-AUCell 分析组合的结果,其中中心垂直线表示中位数,盒子的左右边缘分别表示第一和第三四分位数,须表示 1.5× 四分位间距。异常值用单个点表示。另见表 S5。
Para_02 FCER1A在CD14+单核细胞中在SG_印度捐赠者中上调(log2(倍变化)= 1.45,FDR = 2.92e-5),而在SG_中国捐赠者中下调(log2(倍变化)= -1.16,FDR = 0.0108)。 单核细胞中的FCER1A表达与过敏性疾病的风险有关,一项GWAS SNP,rs2427837(chr1_159288755_G_A),与中国SG人群中的FCER1A基因表达和蛋白质水平相关。 FCER1A的自我报告种族相关的表达模式可能部分由rs2427837等位基因频率的差异解释:仅在SG_印度捐赠者中发现了高FCER1A表达的AA基因型。 在不同人群中,疾病相关基因如FCER1A的差异表达,在程度上类似于与eQTL相关的基因表达变异的幅度,这可能会突出那些对研究不同人群之间疾病风险和易感性的差异感兴趣的基因。 Para_03 在21种细胞亚型中,我们鉴定了SG_Chinese有1,915个差异表达基因(DEGs),SG_Indian有1,968个,但只有97个SG_Malay(错误发现率(FDR)< 0.05,表S5)。SG_Malay的DEGs数量较少可能反映了SG_Malay在基因型PCA中位于SG_Chinese和SG_Indian之间的中间位置(图1D),这表明SG_Malay供体在基因表达空间中也可能处于中间位置。 在CD16+ NK细胞中,SG_Chinese供体中上调的基因富集了与Wnt信号相关的基因集(FDR < 0.05,图S6D和S6E),Wnt信号已被证明与NK细胞分化和功能有关。63 对于MAIT细胞,SG_Indian供体中表现出细胞毒性相关基因集的上调和转化生长因子β(TGF-β)反应基因集的下调(FDR < 0.05,图S6F和S6G),考虑到在SG_Indian供体中这些先天免疫系统样细胞的比例低于SG_Chinese供体(图S4A),这一点非常有趣。 SG_Malay供体在CD14+单核细胞中表现出与炎症和宿主-病原体防御反应相关的基因集的上调(FDR < 0.05,图5C和5D),这与SG_Malay供体中干扰素相关基因表达升高导致的CD14+单核细胞细胞群富集相一致(图4D)。 Para_04 我们假设基因调控网络的差异可能会导致不同人群间的表达变化。例如,我们观察到与Treg细胞中的ZBTB7A64调控组件活性65相比,在男性相对于女性SG_印度捐赠者中这种活性更高(错误发现率小于0.05,图S6H),而在其他新加坡自报族裔中则没有这种性别差异。ZBTB7A已被报道为糖酵解相关基因和胎儿血红蛋白基因表达的抑制剂。 64 这里指ZBTB7A的一个特定调控组件的活性。 Population-specific and context-dependent eQTL effects 种群特异性和上下文依赖的eQTL效应
Para_01 为了调查人类多样性的其他影响,我们对20种细胞亚型进行了伪批量eQTL分析。 我们的特定于细胞亚型的eQTL分析避免了来自整体组织(例如全血)的eQTL分析中存在的细胞比例差异与基因表达差异之间的混淆。 我们鉴定了11,431个独特的基因,在一个亚型中(每个基因至少有一个顺式eQTL(距离基因1Mb以内),错误发现率小于0.05)(eGene),这11,431个基因是从所有亚型中分析的12,187个独特的常染色体基因中鉴定出来的(图6A)。 每种亚型发现的e基因数量与对应亚型分析的供体数量相关(图6A),每种亚型的中位数为2,342个e基因(范围:366-6,444个)。 我们还实施了eigenMT69来提名每个基因的一个主要SNP(表S6)。 图片说明
◉ 图6。种群特异性和上下文依赖的eQTL效应(A)按每个细胞亚型分析的供体数量(n)排序的e基因(每个细胞亚型的FDR < 0.05)和非e基因条形图。(B和C)散点图(B)DICE70(Y轴)和(C)ImmuNexUT71(Y轴)与AIDA(X轴)CD4+T幼稚eQTL效应大小(贝塔)值的散点图,SNP-基因对的AIDA eQTL FDR < 0.05。指示了所有SNP-基因对在象限内的百分比。(D)1,000基因组东亚人群(EAS)超级群体中的maf直方图,对于在至少一个非亚洲超级群体中maf ≤ 0.05的AIDA eQTL。(E)条形图显示在(从左到右)仅AIDA、AIDA和GTEx v8全血、以及仅GTEx v8全血中鉴定的eQTL。检查的SNPs存在于两个数据集中。条形图表示在EUR超级群体中maf ≥ 0.05或maf < 0.05的eQTL在相应类别中的百分比。(F)特征图显示(左侧)蓝色模块评分和(右侧)UMAP上IGHM表达的IGHMhi和IGHMlo记忆B细胞。(G)山脊图显示AIDA人群中的蓝色模块评分分布。(H)箱线图显示根据细胞蓝色模块评分的大小和供体chr18_74269229_G_A基因型分类的IGHMhi和IGHMlo记忆B细胞中的CYB5A表达。另见图S7和表S6。◉ (A)按每个细胞亚型分析的供体数量(n)排序的e基因(每个细胞亚型的FDR < 0.05)和非e基因条形图。◉ (B)散点图显示DICE70(Y轴)与AIDA(X轴)CD4+T幼稚eQTL效应大小(贝塔)值的关系。◉ (C)散点图显示ImmuNexUT71(Y轴)与AIDA(X轴)CD4+T幼稚eQTL效应大小(贝塔)值的关系。◉ 指示了所有SNP-基因对在象限内的百分比。◉ (D)1,000基因组东亚人群(EAS)超级群体中的maf直方图,对于在至少一个非亚洲超级群体中maf ≤ 0.05的AIDA eQTL。◉ (E)条形图显示在(从左到右)仅AIDA、AIDA和GTEx v8全血、以及仅GTEx v8全血中鉴定的eQTL。◉ 检查的SNPs存在于两个数据集中。◉ 条形图表示在EUR超级群体中maf ≥ 0.05或maf < 0.05的eQTL在相应类别中的百分比。◉ (F)特征图显示(左侧)蓝色模块评分和(右侧)UMAP上IGHM表达的IGHMhi和IGHMlo记忆B细胞。◉ (G)山脊图显示AIDA人群中的蓝色模块评分分布。◉ (H)箱线图显示根据细胞蓝色模块评分的大小和供体chr18_74269229_G_A基因型分类的IGHMhi和IGHMlo记忆B细胞中的CYB5A表达。◉ 另见图S7和表S6。
Para_01 我们通过使用DICE(91名加利福尼亚州,美国捐赠者)数据集验证了我们的eQTL。 由于基因表达归一化和转换方法的不同,eQTL效应大小在不同研究中的幅度可能会有所不同。 因此,我们评估了效应大小方向的一致性。 对于5种亚型(CD4+ T初始细胞、初始B细胞、CD14+单核细胞、CD8+ T初始细胞、CD16+ NK细胞),AIDA eQTLs(每个亚型的FDR < 0.05)的效应大小方向一致率为84.1%-87.1%(图6B、S7A和S7B)。 当我们比较AIDA eQTLs与ImmuNexUT eQTLs(416名日本捐赠者)在相同5种亚型中的情况时,观察到了eQTL复制的增强(一致性为92.0%-93.9%;图6C、S7A和S7C)。 这种复制的改进可能归因于ImmuNexUT队列比DICE队列更大,以及AIDA队列与ImmuNexUT队列之间的遗传相似性高于AIDA队列与DICE队列之间的遗传相似性。 这些结果表明,AIDA eQTLs的eQTL识别具有相当大的复制程度。 图片说明
◉ 图 S7。AIDA 假bulk eQTL 分析的复制和 AIDA eQTL 的等位基因频率谱,与图 6 相关(A)直方图显示了 CD4+ T 初始细胞中 AIDA eQTL FDR < 0.05 的 SNP-基因对的 eQTL 效应大小(β)值。(B 和 C)散点图显示了(B)DICE70(Y 轴)和(C)ImmuNexUT71(Y 轴)相对于 AIDA(X 轴)eQTL β 值的 SNP-基因对的散点图,对于(从左到右)初始 B 细胞、CD14+ 单核细胞、CD8+ T 初始细胞和 CD16+ 自然杀伤细胞,AIDA eQTL FDR < 0.05 的每个细胞亚型。图中标出了所有 SNP-基因对百分比,它们位于象限内。(D)直方图显示了 1,000 基因组南亚(SAS)超级人群中的次要等位基因频率(maf),对于至少在一个 1,000 基因组非洲、混血美洲或欧洲(EUR)超级人群中低频(maf 0.01–0.05)或稀有(maf < 0.01)的 AIDA eQTL。(E)散点图描绘了 AIDA 上下文依赖性 eQTL 的等位基因频率谱(1,000 基因组 EUR 超级人群 maf 在 Y 轴上,AIDA 阶段 1 队列 maf 在 X 轴上),这些 eQTL 受蓝模块评分调节。图中指出了 1,000 基因组 EUR maf ≥ 0.05 和 maf < 0.05 的 eQTL 百分比。粗线表示 maf = 0.05。
Para_01 我们检查了1000基因组第三阶段数据集中的AIDA eQTLs。 其中6.94%在非洲(AFR)、拉丁美洲混血(AMR)和欧洲(EUR)这三个超级人群中都是低频(maf 0.01–0.05)或罕见(maf < 0.01)的。 2.24%在欧洲(EUR)超级人群中完全不存在。 31.6%在至少一个上述超级人群中是低频或罕见的,而许多在东亚(EAS)和南亚(SAS)超级人群中较为常见(图6D和S7D)。 Para_02 我们还将AIDA eQTL集合与FDR小于0.05的所有测试和所有细胞亚型进行了比较,针对GTEx v8全血数据集中的eQTLs进行了研究,重点关注两项研究中都进行检测的SNP。 在AIDA(亚洲队列)和GTEx v8全血(约85%为欧洲人)数据集中发现的重叠eQTLs中,3.46%在EUR超级人群中具有小于0.05的maf。 相比之下,在仅在AIDA中识别出的eQTLs中,20.9%在EUR超级人群中具有小于0.05的maf,这表明存在大量影响细胞类型特异性基因表达的种群特异性变异(图6E)。 Para_03 我们利用数据集的单细胞分辨率来阐明依赖于环境的eQTL效应,这些效应可以超越基于细胞类型的具体分析,以确定调节基因表达变异的细胞机制和细胞状态。 我们通过基因-基因相关性分析识别出的基因模块来建模细胞环境,例如一个与记忆B细胞中的IGHM梯度相对应的模块("蓝色")(图6F、6G和S2F),这可能与B细胞激活有关。 我们发现,在测试的54,798个SNP-基因对中,有7,597个(占13.9%)显示了依赖于蓝色模块的eQTL效应(FDR < 0.05)。 例如,rs7239151(chr18_74269229_G_A)对CYB5A表达的影响随着细胞蓝色模块评分的大小而变化。 对于GG基因型,更高的模块评分与更高的CYB5A表达相关,但对于AA基因型则不然(图6H),这表明B细胞激活状态调节了变异效应。 在AIDA中,7.25%的依赖于环境的eQTLs是常见的,但在EUR超级人群中频率较低或很少见(图S7E)。 这些等位基因频率差异(图6E和S7E)展示了研究多样化人群以表征与人类相关的所有遗传变异的重要性。 eQTL analyses contextualize population-specific trait-associated loci eQTL分析将特定人群的性状相关位点具体化
Para_01 我们还对亚洲队列的免疫相关疾病全基因组关联研究中的AIDA eQTL进行了共定位分析。 我们发现了20种细胞亚型中共定位概率高的1,025个案例(共定位概率 > 0.8;表S7)。 我们在所有主要细胞群体的共定位分析中发现了许多种群特异性变异,并且跨越了多种疾病。 rs57631119是CD4+ T cm中的SMAD2 eQTL(N = 461,df = 434,t = -8.54,双尾t检验p = 2.19e-16),也是哮喘的GWAS变异(GWAS p = 5.29e-7;共定位概率 = 0.951),在千人基因组非洲和欧洲超级人群中频率较低,但在其他超级人群中较为常见(图7A)。 TGF-β-SMAD2信号通路在哮喘患者的气道中活跃。 rs2230500是IGHMlo记忆B细胞中的HIF1A eQTL(N = 435,df = 408,t值 = -6.28,双尾t检验p = 8.77e-10),同时也是跨祖先和东亚祖先GWAS中类风湿性关节炎的变异(东亚GWAS p = 2.03e-8;共定位概率 = 0.864),在非亚洲超级人群中较为罕见(图7B)。 HIF1A在类风湿性关节炎患者滑膜组织中的血管生成和炎症活动中起作用。 图片说明
◉ 图7。eQTL分析将特定人群的特征相关基因座进行上下文化。(A)-(D)中的基因座图显示了在(左上)GWAS和(左下)AIDA eQTL分析中调查的变异体。(右上)感兴趣变异体在1000基因组超级人群中的maf。(右下)受影响细胞亚型中的e基因表达箱线图(y轴)与AIDA供体基因型(x轴)对比。(A)rs57631119:CD4+ T cm中的SMAD2 eQTL以及哮喘GWAS变异体。(B)rs2230500:IGHMlo记忆B细胞中的HIF1A eQTL以及风湿性关节炎EAS GWAS变异体。(C)rs74416240:CD14+单核细胞中的TCHP eQTL以及Graves病GWAS变异体。(D)rs17094188:CD16+ NK中的SEL1L eQTL以及淋巴细胞计数GWAS变异体。另见表S7。
Para_01 此外,仅在东亚超级人群中发现的一种变异(rs74416240)在CD14+单核细胞中是TCHP的表达数量性状位点(N = 460,df = 433,t = −8.36,双尾t检验p = 8.48e−16),并且该变异与格雷夫斯病相关(GWAS p = 8.61e−14;共定位PP = 0.983,图7C)。关于TCHP在疾病中的作用知之甚少,OMIM80或UniProt81中没有相关的疾病报告,这一结果表明TCHP可能是功能性研究用于格雷夫斯病的一个候选基因。 Little is known about TCHP in disease, with no disease reports in OMIM80 or UniProt,81 and this result suggests that TCHP may be a candidate for functional investigation for Graves’ disease. Para_02 我们还发现了与血液性状全基因组关联研究信号共定位的例子。rs17094188 是 CD16+ NK 中 SEL1L 的表达数量性状位点(N = 461,df = 434,t = 6.57,双尾 t 检验 p = 1.45e-10)以及淋巴细胞计数的全基因组关联研究变异(GWAS p = 2.97e-10;共定位 PP = 0.999),在非裔美国人和欧洲血统人群中较为罕见,但在东亚血统人群中较为常见(图 7D)。据报道,SEL1L 对 CD8+ T 细胞的功能和持久性很重要。 SEL1L 已被报道对 CD8+ T 细胞的功能和持久性很重要。 Discussion Para_01 我们从五个国家的健康捐赠者中生成和组装了一个单细胞RNA测序免疫细胞图谱。 我们的研究结果强调了研究人类多样性不仅是一个紧迫的公平问题,而且对科学研究也具有重要意义。 我们调查的所有人类多样性的维度都会影响细胞和分子表型,并且理想情况下应该纳入参考图谱中,以便于从涉及疾病数据集的比较中做出准确推断。 此外,我们的eQTLs使我们能够优先考虑用于变异分析和解释的位点、基因、细胞亚型和细胞背景,包括特定人群的变异。 充分利用人类多样性范围可以促进识别更多与疾病风险和表型变异相关的遗传关联。 Para_02 由于遗传变异和环境因素经常混淆,31我们发现的遗传祖先和自我报告的种族关联不一定代表遗传效应。 这样的关联可能代表了人群之间遗传和环境差异的综合影响,包括例如饮食和地理上的差异。 此外,对GTEx v8数据的分析发现,年龄、性别、祖先和BMI对基因表达的变化做出了组织依赖性的贡献。 为了更深入地理解各个因素的影响,需要在具有全面环境和生活方式元数据的多样化队列中对多种组织进行进一步研究。 白细胞计数的个体间差异即使与疾病风险无关,也可能影响诊断和临床治疗。 无论其病因如何,特定于人群的细胞和分子特征可以有助于定义重要的健康基线,这对诊断和精准医学至关重要。 Para_03 技术差异跨越实验批次和研究站点可能会引入与感兴趣的生物学变异混杂在一起的统计偏差。 我们采用了一系列技术来缓解这种情况,包括在整个研究站点中统一实验流程和数据分析。 我们也确认了关键结果在两种数据整合方法中保持一致(图3J、3K、S3G和S4D)。 为了进一步减少特定站点技术偏差对自我报告种族分析的影响,我们在每个族群内部进行了内部比较(例如,女性与男性或年龄差异)。 并将重点放在我们的新加坡队列上,该队列中的SG_中国人、SG_马来人和SG_印度人捐赠者被随机分批。 最后,我们在其他队列中验证了我们的发现。 这些策略可能对未来多元国家的单细胞研究中多样化的队列具有相关性。 Para_04 我们的研究发现不同亚型比例的差异,例如韩国供体中的Treg比例较低(图3J、S3F和S3G),这可能对理解特定人群的疾病易感性有所启示。 在自身免疫性疾病的发生过程中观察到了Treg细胞的耗竭,85这激发了对韩国人群中自身免疫性疾病患病率的进一步研究,以及更广泛地对不同人群间疾病患病率的比较研究。 例如,一项针对美国纽约市曼哈顿的研究发现,非西班牙裔亚裔女性系统性红斑狼疮(SLE)的患病率高于非西班牙裔白人女性。86 结合来自单细胞RNA测序数据集的详细免疫表型分析与不同人群间疾病患病率的研究,可以帮助确定理解及治疗疾病感兴趣的机制。 Para_05 我们已经证明了超越大陆层面的群体划分来考察次大陆尺度上的差异的重要性。 一项针对1,000基因组计划淋巴母细胞样细胞系的大规模RNA测序研究观察到,次大陆人口标签对于基因表达和可变剪接的方差解释比大陆标签更大。 测量和理解适当界定地理区域内的不同人群之间的生物多样性对于理解人类生物学很重要。 此外,调查人类多样性可以为重要问题提供见解,包括遗传因素和环境因素的相对贡献,以及基因与环境相互作用对人类表型的影响。 Para_06 我们预计单细胞基因组学将允许下一代类似CBC的诊断测试,并能够将系统性读数与组织疾病表型进行高分辨率连接。 例如,外周血中的特征(如细胞类型丰度和克隆型扩增)已与免疫细胞肿瘤浸润、肿瘤对免疫治疗的反应以及疾病状态相关联。 这些可能具有预后标志物的潜力。 鉴于scRNA-seq技术在精准医疗中的众多潜在应用,从一开始,scRNA-seq参考图集就应该多样化,以最大化对所有人群的全球益处。 Limitations of the study 研究的局限性
Para_07 我们分析的一个注意事项是,人类的人口统计学特征如年龄、性别、自我报告的种族和遗传祖先可能会受到相关社会文化、环境(例如,接触传染性病原体)和生活方式(例如,饮食)因素的影响,所有这些因素都可能导致表型变异。 此外,研究地点之间的技术差异可能引入难以与人群组之间生物学差异区分开来的偏差。 尽管我们采用了技术手段来减轻批次效应,但仍有可能存在一些真正的生物学差异未被发现。 实验方案和批次校正方法在未来的发展可能会促进对人群间生物学变异分析的敏感度提升。 更全面的元数据收集,如在精准医学计划的主持下进行的进一步研究,将有助于分析将细胞和分子特性与更广泛的供者元数据联系起来。 Resource availability Lead contact 主要联系人
Para_01 进一步的信息和资源请求应转至首席联系人Shyam Prabhakar (prabhakars@gis.a-star.edu.sg),并将由其满足。 , Materials availability 材料可用性
Para_01 本研究没有产生新的独特试剂。 Data and code availability 数据和代码可用性
AIDA数据冻结版本2的基因细胞矩阵和元数据可通过CZ CELLxGENE(https://cellxgene.cziscience.com/collections/ced320a1-29f3-47c1-a735-513c7084d508)和细胞注释平台(https://celltype.info/project/336/dataset/591)获取。AIDA数据集也可通过HCA数据门户(开放获取:https://data.humancellatlas.org/explore/projects/f0f89c14-7460-4bab-9d42-22228a91f185;受管理访问:https://data.humancellatlas.org/hca-bio-networks/genetic-diversity/datasets, https://explore.data.humancellatlas.org/projects/35d5b057-3daf-4ccd-8112-196194598893),以及向相应作者申请数据访问来获得。 所有原始代码均可通过GitHub(https://github.com/prabhakarlab/AIDA_Phase1/)和Zenodo91(https://doi.org/10.5281/zenodo.14722571)获取。 重新分析本文报道的数据所需的任何附加信息可应请求从主要联系人处获得。 Acknowledgments Para_01 我们要感谢所有参与构成AIDA的研究中的捐赠者。 该项目由Chan Zuckerberg基金会提供的赠款CZF2019-002446(S.P.、W.-Y.P.、J.W.S.和J.C.C.)和CZF2021-238829(5022)(S.P.、W.-Y.P.和J.W.S.)资助。 该项目还得到了Chan Zuckerberg Initiative(CZI)DAF(硅谷社区基金会的建议基金)提供的赠款2020-224570(S.P.、V.C.、P.M.和P.P.M.)、2021-240178(S.P.、W.-Y.P.、J.W.S.、J.C.C.、V.C.、P.M.和P.P.M.)以及2023-330381(K.H.K.)资助。 新加坡捐赠者的样本是通过Health for Life in Singapore(HELIOS)研究获得的(LKCMedicine, NTU;National Healthcare Group [NHG],新加坡;Imperial College London)。 我们要向HELIOS研究参与者和HELIOS运营团队表示感谢,感谢他们进行招募、组织以及数据和样本收集,包括Yoke Yin Terry Tong、Swat Kim Kerk、Guo Liang Low和Halimah Binte Ibrahim(HELIOS生物银行团队)。 这项研究得到了新加坡卫生部国家医学研究委员会(OF-LCG: MOH-000271-00)和内部资金(NTU;LKCMedicine;NHG)的支持。 该项目还得到了A*STAR行业对齐基金(预置):H17/01/a0/007和H18/01/a0/020(S.P.)的资金支持。 该项目还得到了日本文部科学省(MEXT)对理化学研究所综合医疗科学中心的支持。 该项目还得到了泰国竞争力提升计划管理单位(PMU-C)(C10F650132)(V.C.、P.M.、M.P.和B.S.)的资金支持。 该项目还得到了玛希隆大学基础研究基金2021年财政年度(BRF1-017/2564)(V.C.和B.S.)以及基本研究基金2021年和2024年财政年度(P.M.)的支持。 我们要感谢A*STAR SIgN流式细胞术平台使本出版物中的流式细胞术数据分析成为可能。 流式细胞术数据分析得到了A*STAR联合理事会办公室(1434M00115)的支持,流式细胞术平台得到了SIgN免疫监测平台(BMRC: IAF 311006,过渡资金H16/99/b0/011)和国家研究基金会免疫监测服务平台赠款NRF2017_SISFP09的支持。 B.L.得到了新加坡教育部学术研究基金一级资助FY2023(23-0434-A0001和22-5800-A0001)和二级资助(MOE-T2EP30123-0015)的支持。 B.L.还得到了精准医学转化研究项目核心资助(NUHSRO/2020/080/MSC/04/PM)、NUS ODPRT种子资助和NUS YLLSoM种子资助的支持。 Y. Tong得到了MGI IRP奖学金的支持。 我们要感谢Jennifer Zamanian、Jennifer Chien和Jason Hilton(HCA Lattice, 斯坦福大学)的数据提交和scRNA-seq数据集的社区访问。 我们要感谢我们实验室的成员、Jonah Cool、Norbert Tavares、Bailey Marshall、Garabet Yeretssian和CZI细胞科学、Sudhagar Samydurai和GIS S2GP以及Mohamad Amin Honardoost的有益讨论。 本出版物是HCA(www.humancellatlas.org/publications/)的一部分。 Author contributions Para_01 K.H.K. 预处理和分析了数据,参与了研究设计,并监督了单细胞数据分析。 L.M.T., K.Y.H., Y.A., D.J., A.C., J.C., S.G., M.K., T.K., J.L., S.N., S. Sarkar, N.T., 和 P.N.V. 进行了 scRNA-seq 实验。 K.Y.H., D.J., A.C., M.A., J.C., S.F., S.G., G.I., K.M., S.N., J.-M.O., S. Sarkar, A.S., 和 N.T. 进行了样本分离和处理。 Q.X.X.L. 预处理和分析了第一个 AIDA 数据冻结。 E.V.B. 和 K.H.K. 进行了细胞类型注释。 R.S. 进行了整合和调控分析。 K.H.K. 和 M.-S.P. 进行了 eQTL 分析。 D.R., S. Sankaran, 和 N.A.R. 贡献于研究设计。 D.R. 和 N.A.R. 开发了协议。 Y. Tomofuji 和 Y.O. 进行了基因分型质量控制和推断,并领导了 X 染色体失活逃逸项目。 Y. Tomofuji, M.N., K.I., 和 Y.O. 收集了全基因组关联研究总结统计。 L.M.T., J.M., J.-E.P., 和 M.C. 贡献于数据分析。 Z.C. 贡献于差异表达基因分析。 B.L., C.T., Y.Z., 和 Y. Tong 领导了剪接项目。 C.T.Y.T., A.M.T., Y.Y.H., 和 A.L. 分析了 SLAS-2 流式细胞术数据。 T.P.N. 和 R.C.H. 领导了 SLAS 队列。 A.-C.V. 贡献于细胞类型注释。 F.A.W., B.L., 和 H.-H.W. 贡献于统计方法。 A.M., J.-E.P., 和 M.C. 贡献于 scRNA-seq 数据生成。 J.C.C., P.C., K.Y., B.S., M.P., 和 M.L. 领导了 AIDA 队列并监督了样本收集。 S.P., W.-Y.P., J.W.S., P.P.M., V.C., P.M., 和 C.-C.H. 领导并监督了 scRNA-seq 数据生成。 S.P., W.-Y.P., 和 J.W.S. 设计了研究并监督了研究。 K.H.K. 和 S.P. 撰写了手稿,所有作者均提供了意见。 Declaration of interests Para_01 作者声明不存在竞争性利益。 STAR★Methods Key resources table 关键资源表
Experimental model and study participant details 实验模型和研究参与者详情
Healthy donors in the Asian Immune Diversity Atlas (AIDA) 亚洲免疫多样性图谱(AIDA)中的健康捐赠者
Para_01 这项研究对来自印度、日本、新加坡、韩国和泰国的健康人类捐赠者进行了分析。 所有研究方案均得到了我们实验室所属机构的伦理审查委员会(IRBs)的批准(新加坡基因组研究所:IRBs 2020-012 和 2022-051;南洋理工大学:IRB-2016-11-030-01,IRB-2016-11-030 和 18IC4698;理化学研究所:IRB H30-9;三星基因组研究所,三星医疗中心:IRB 2019-09-121;延世大学医院:IRB 9-2020-0109;玛希隆大学医学院西里拉医院:IRB 725/2563(IRB3);国家生物医学基因组学研究所:IRB NIBMG/2022/1/0022)。 我们的样本采集地点分别是加尔各答、横滨、新加坡、首尔和曼谷。 所有捐赠者均提供了书面知情同意书,同意样本和元数据的收集以及后续分析。 从捐赠者处通过问卷调查和临床测量收集了捐赠者的元数据,包括年龄、性别(女性/男性)、自我报告的种族、身高、体重、体质指数(BMI)、吸烟状态以及药物和膳食补充剂的使用情况。 我们严格遵守了所有的伦理规定和IRB条件。 无法提供知情同意的人。 有活动性感染或发烧的人。 正在接受常规药物治疗的人(不包括饮食补充剂和/或草药补品的摄入)未被排除在我们的研究之外。 患有自身免疫性疾病的人。 血红蛋白A1c(HbA1c)≥6%的人。 Para_02 我们从参考图谱中排除了在采血日期前8周内接种过任何疫苗的人。 Para_03 我们分析了85名新加坡华人(SG_华人),70名新加坡印度人(SG_印度人),61名新加坡马来人(SG_马来人),149名日本日本人,165名韩国韩国人,59名泰国泰国人,以及30名印度印度人捐赠者,共计619名亚洲捐赠者,用于AIDA数据冻结v2数据集。 捐赠者的年龄范围从19岁到77岁不等(中位数=40岁;图1B和S1C)。 总体而言,捐赠者在性别上基本平衡(AIDA队列中女性占56.2%;图1B)。 有关AIDA队列捐赠者元数据的详细信息,请参见表S1和图1B及S1C。 Para_04 我们还在 AIDA Data Freeze v2 数据集中包含了来自6位不同欧洲捐赠者的对照PBMC样本(Lonza 4W-270,来自批号3038099、3038016、3038097、3038306、3030004和3061635)(表S1)。 Inclusion and ethics 包容与伦理
Para_01 我们让印度、日本、新加坡、韩国和泰国的地方研究人员参与了研究的所有方面,包括研究设计、实施、数据所有权和作者身份。 社区参与由每个国家在流行病学和人群遗传学领域具有专业知识的作者和合作者领导。 Method details 方法细节
Isolation of peripheral blood mononuclear cells (PBMCs) 外周血单核细胞(PBMCs)的分离
Para_01 从每位献血者身上抽取了8毫升血液用于本研究,使用含有肝素钠的CPT管(BD Vacutainer CPT,目录号362753)。 所有研究地点均采用标准化方案分离外周血单核细胞(PBMCs)。 我们使用胎牛血清(FBS;Sigma-Aldrich目录号F2442,批号19G014和20A363)进行PBMC分离以及细胞池化和洗涤程序。 简言之,在室温下收集于CPT管中的血液样本在采集后两小时内通过密度梯度离心法进行处理。 离心步骤使用了软设置来控制离心机的加速和减速。 血液样本在离心前混合了8-10次,然后在水平转子中以1,500 x g的力离心30分钟,转速为20°C。 血浆被吸出;然后收集PBMC层,并在20°C下以300 x g的力离心15分钟。 细胞沉淀物重新悬浮在ACK裂解缓冲液(Thermo Fisher Scientific,目录号A10492)中,用于红细胞裂解。 样品用洗涤缓冲液(PBS pH 7.4,1% FBS,1 mM EDTA)洗涤两次,并在20°C下以300 x g的力离心15分钟。 PBMCs在CryoStor CS10细胞冷冻培养基(STEMCELL Technologies,目录号079555)中冷冻保存。 冷冻小瓶在控制速率冷却容器中过夜储存于-80°C,之后长期储存在液氮中。 我们已通过protocols.io109(https://www.protocols.io/view/pbmcs-isolation-from-cpt-tube-b8r9rv96)将所有研究地点的详细协议统一发布。 Single-cell experiments: Genetic multiplexing and sample pooling 单细胞实验:基因多重化和样本混合
Para_01 解冻和洗涤单个PBMC样品以及供体样品的混合(用于基因多路复用)是在所有研究站点按照标准化协议进行的。简而言之,将单个PBMC供体样品的小瓶在37°C的水浴中解冻1-2分钟,直到看不到可见的冰晶,然后使用预热的解冻介质(RPMI(Gibco目录号21870076)+ 5%人血清(Sigma-Aldrich目录号H4522)+ 1%青霉素-链霉素(Gibco目录号15140122)+ 1%L-谷氨酰胺(Gibco目录号25030081))进一步解冻。 单个样品在21°C下以300 x g离心5分钟,然后首先使用预热的洗涤介质(RPMI + 10%FBS + 1%青霉素-链霉素 + 1%L-谷氨酰胺)洗涤,接着用预热的PBS + 0.04%牛血清白蛋白(BSA,Capricorn Scientific目录号BSA-1S)洗涤两次。 然后每个单独的样品通过一个30μm的MACS SmartStrainer(Miltenyi Biotec)过滤,以去除细胞团块和碎片;过滤后,样品在所有后续程序中保持在冰上。 每个样品与等量的Trypan Blue以1:1的比例混合,并使用自动细胞计数器(Thermo Fisher Countess II FL)计数,然后重新悬浮至每毫升1.50 × 10^6个细胞的浓度在PBS + 0.04%BSA中。 每个实验批次中的每个供体的等数量和体积的细胞被混合在一起,混合后的样品在进行10x Genomics单细胞实验前使用上述相同的细胞计数程序进行计数。 我们已通过protocols.io110在https://www.protocols.io/view/demuxlet-cell-preparation-protocol-b8sdrwa6上提供了我们在所有研究站点标准化的详细协议。 Single-cell experiments: 10x Genomics 5’ v2 RNA-sequencing, B cell receptor sequencing (BCR-seq), and T cell receptor sequencing (TCR-seq) 单细胞实验:10x Genomics 5' v2 RNA 测序、B 细胞受体测序(BCR-seq)和 T 细胞受体测序(TCR-seq)
Para_01 十五个亚洲捐赠者样本和一个欧洲控制样本(Lonza 4W-270,来自批次编号3038099、3038016、3038097、3038306、3030004和3061635;前五个批次编号用于AIDA数据冻结版本1,而所有六个批次编号都用于AIDA数据冻结版本2)每批混合在一起,每批进行了两次技术重复(我们称之为重复文库)。 Para_02 为了允许来自新加坡不同族群的捐赠者之间的比较,我们对捐赠者进行了批次随机化处理,确保每个新加坡捐赠者批次中有大约相同数量的新加坡华人、新加坡马来人和新加坡印度人(以及相同的年龄范围和性别比例)。 , Para_03 对于每个供体的PBMC批次/池,我们在每个技术重复的每个通道中加载了40,000个细胞,并根据制造商的协议进行了10x Genomics 5' v2单细胞RNA测序(scRNA-seq)、B细胞受体测序(BCR-seq)和T细胞受体测序(TCR-seq)实验和文库制备。 我们在每个研究地点使用10x Genomics控制器进行10x Genomics分区(生成油包水凝胶珠(GEMs))和条形码处理。 我们使用以下10x Genomics试剂进行我们的实验:Chromium Next GEM芯片K单细胞试剂盒、Chromium单细胞5' v2试剂盒、双重索引试剂盒TT套装A、Chromium单细胞人TCR扩增试剂盒和Chromium单细胞人BCR扩增试剂盒。 我们使用Agilent Technologies的Bioanalyzer 2100高灵敏度DNA试剂盒对文库进行定量。 Para_04 我们汇集了两个Illumina NovaSeq 6000 S4流细胞每条通道的技术重复(即两个文库)的5' v2基因表达。 我们在Illumina NovaSeq 6000 S4流细胞的每条通道中汇集了20个BCR和/或TCR文库。 我们使用配对末端150 bp的测序配置,带10 bp双重i7和i5索引,对日本、新加坡、韩国和泰国的文库进行了测序。 我们的印度文库使用了读取1:26个碱基和读取2:90个碱基的测序配置,带有10 bp双重i7和i5索引进行测序。 Genomic DNA isolation, genotyping, genotype quality control, and genotype imputation 基因组DNA提取、基因分型、基因型质量控制和基因型填补
Para_01 从每个供体的PBMC中提取基因组DNA,使用QIAamp DNA Mini Kit(Qiagen,目录号51306)按照制造商的协议进行。 使用Illumina GSAv3.0阵列(Infinium全球筛查阵列-24试剂盒,目录号20030770)进行基因分型。 我们使用Illumina GenomeStudio版本2.0软件以及PLINK输入报告插件v2.1.4和Illumina全球筛查阵列v3.0清单文件(BPM格式 - GRCh38)将原始IDAT文件转换为MAP和PED文件。 我们使用StrandScript92一致地将Illumina基因分型数据校正到GRCh38人类基因组参考前向链。 Para_02 为了我们的遗传解复用工作流程,我们随后使用了 PLINK 1.993 来保留至少有 0.05 最小次要等位基因频率的常染色体变异,并将数据转换为 VCF 文件。 对于每个 AIDA 批次的供体样本,我们只包括了 100% 基因分型率的 SNP,并排除了插入缺失。 我们使用 bcftools norm -f94 和 GRCh38 参考基因组纠正了参考等位基因碱基身份,并去除了任何多等位基因 SNP。 我们将生成的 VCF 文件作为输入用于个体单细胞测序文库的遗传解复用。 我们还使用这些 VCF 文件对 AIDA 基因分型数据进行了主成分分析(PCA),使用 R 语言中的 prcomp 函数。 我们使用供体 Illumina GSAv3 基因分型数据的 PCA 中的第一至第三主成分进行 AIDA 队列的遗传祖先分析。 Para_03 对于基因型填充,我们进行了样本级别和变异级别的质量控制(QC)步骤。 那些呼叫比小于0.98(在考虑了呼叫比率大于0.99的常染色体变异后)的样本被排除在填充程序之外。 通过使用PLINK2计算PI_HAT和Z1亲缘关系共享值来识别相关的供体样本。 在变异级别质量控制过程中,呼叫比率小于0.99的变异被排除。 显示出与性别显著关联的变异以及哈迪-温伯格平衡(HWE)p值小于1e-6的变异也被排除。 在AIDA基因型数据集中,如果某个变异的等位基因频率与1000基因组hg38数据集中的频率相差超过15%(针对在AIDA新加坡华人、日本人和韩国人捐赠者与1000基因组东亚超级人群中的变异,以及在AIDA日本人捐赠者与1000基因组日本人捐赠者中的变异),或超过17.5%(针对在AIDA新加坡印度捐赠者与1000基因组南亚超级人群中的变异),则该变异被排除。 此外,我们无法自信地匹配到1000基因组hg38数据集中的链方向的变异以及重复的变异也被排除在外。 在这些质量控制程序之后,使用密歇根填充服务器进行基因型填充,利用1000基因组hg38(所有人群)高覆盖率参考面板(1000基因组阶段3(版本5),包含2,504个样本和49,143,605个位于常染色体上的位点)作为填充面板。 Single-cell RNA-sequencing (scRNA-seq) pre-processing and quality control 单细胞RNA测序(scRNA-seq)预处理和质量控制
Para_01 我们对所有单细胞RNA测序数据集进行了集中预处理和质量控制(QC)。 我们使用了Illumina DRAGEN v3.8.4软件(版本07.021.602.3.8.4-20-g74395e76)中的DRAGEN单细胞RNA管道,用于处理来自日本、新加坡、韩国和泰国每个个体单细胞RNA测序基因表达文库的配对端FASTQ文件,以获得每个文库的一个基因-细胞矩阵。 我们利用DRAGEN遗传解复用工作流程来检测遗传双联体,并根据提供的给DRAGEN管道的供体基因型数据VCF文件将细胞分配给相应的供体。 我们将GENCODE发布版32(GRCh38,Ensembl 98,日期2019-09-05)作为我们的基因注释参考,并将相关的GRCh38主要基因组装配作为我们的参考基因组,设置了--Aligner.hard-clips=0和--Aligner.sec-aligns=3。 我们在DRAGEN管道中的10x Genomics Cell Ranger软件安装中使用了737K-August-2016.txt条形码白名单(对应于与10x Genomics单细胞5' v2分析相关的条形码列表)。 对于AIDA BCR-seq和TCR-seq日本、新加坡、韩国和泰国数据集,我们使用Cell Ranger VDJ管道版本cellranger-5.0.0和cellranger-5.0.1分别处理每个文库的配对端FASTQ文件。 对于AIDA单细胞RNA测序印度数据集,由于无法通过DRAGEN管道充分处理,我们使用默认参数运行了Cell Ranger版本7.0.1,在cellranger计数步骤中默认包括了内含子。 对于AIDA BCR-seq和TCR-seq印度数据集,我们使用Cell Ranger VDJ管道版本cellranger-4.0.0处理FASTQ文件。 我们对所有BCR和TCR数据集使用了相同的Cell Ranger V(D)J参考(vdj_GRCh38_alts_ensembl-5.0.0),并考虑了输出文件中的高置信度BCR和TCR片段进行分析。 Para_02 对于日本、新加坡、韩国和泰国的单细胞实验批次,所有供体基因型数据均可获得的情况下,我们使用了DRAGEN遗传解复用输出来进行遗传单细胞和遗传双细胞的分配。 对于缺少一个供体基因型的批次(例如,由于基因组DNA提取程序的问题),我们使用了DRAGEN管道输出的BAM文件上的Freemuxlet96(https://github.com/statgen/popscle),采用Freemuxlet的默认参数,将细胞分配给供体。 然后,我们通过比较Freemuxlet推断出的基因型与Illumina GSAv3基因分型阵列数据来执行基因型一致性分析,以匹配Freemuxlet聚类与供体。 对于这些Freemuxlet分析,我们将1000基因组数据库20181203_biallelic_SNV GRCh38版本中东亚和/或南亚超级群体中次要等位基因频率≥0.05的外显子变异集作为输入VCF文件进入dsc-pileup步骤。 对于AIDA印度数据集,我们在Cell Ranger的BAM输出文件上运行了Demuxlet97,采用默认参数,除了设置--group-list为未过滤Cell Ranger输出中的条形码列表(barcodes.tsv.gz)。 我们排除了所有下游分析中遗传双细胞率过高的任何文库。 Para_03 我们分两个阶段对我们的单细胞RNA测序数据集进行了质量控制。首先,我们通过对每个单独的文库进行分析来进行文库级别的质量控制。 我们过滤掉了检测到的基因数(NODG)少于300个的细胞(检测到的基因数<300个)。 Para_04 我们为每个文库初步确定了细胞类型注释,以便在我们的双细胞识别工作流程中使用。 对于AIDA数据冻结版本1,我们使用Seurat 4.1.1 R包中的方差稳定化转换选项确定了前2,000个高度可变特征,对数据进行了缩放,并对这些高度可变特征进行了主成分分析。 基于由此产生的主成分,我们进行了最近邻分析,并在分辨率为1.0的情况下在Seurat中运行了Louvain聚类。 对于AIDA数据冻结版本2,为了提高我们对抗批次间异质双细胞识别中的批次间变异的能力,我们改用RCAv2软件将每个单细胞RNA测序文库投影到免疫细胞转录组的参考面板上。 然后,我们基于参考投影系数的主成分进行了最近邻分析,并在分辨率为1.0的情况下在Seurat中运行了Louvain聚类。 对于两个数据冻结版本,我们都根据RCAv2分配给每个簇内细胞的主要细胞类型注释标签的多数投票来标注由此产生的簇。 Para_05 我们使用遗传双倍体比例(结合混合遗传身份和模糊身份液滴的比例)来估计该文库可能的总双倍体率(文库中遗传双倍体的比例除以所有NODG≥300的细胞数再乘以(文库中的供体样本数)/(供体样本数-1))。 我们使用这个文库中总双倍体的估计值,以及基于RCAv2参考投影的聚类和注释(用于估计同型双倍体比例)作为输入到DoubletFinder版本2.0.3中,我们用它来识别异型双倍体。 然后,我们移除了UMIs总数超过10(HBA1加HBB)的细胞,因为这些细胞可能是红血球或被红血球RNA转录物污染的细胞。 我们通过检查每个供体的单倍体细胞数量(通常约为1,000个单倍体细胞,并且几乎总是每文库每个供体的单倍体细胞数量>>100)来检查是否有样本交换。 我们还检查了scRNA-seq推断的女性/男性性别(根据非伪性染色体区域(PAR)Y染色体基因的总UMI计数与PAR Y染色体基因的总UMI计数之比推断)与供体元数据的一致性。 通过检查转录组学数据和基因型数据之间的匹配,我们的整合分析通过遗传解复用工作流程将scRNA-seq读取与基因分型阵列输出相结合,有助于防止批次间的样本交换。 Para_06 在我们进行了上述库级别的质量控制程序后,我们对我们的数据集进行了细胞类型特定的质量控制。 我们将任何被DRAGEN遗传解复用工作流程或DoubletFinder工作流程标记为双联体的细胞从我们的下游分析中移除,并仅包括来自健康供体的单细胞,这些供体已提供了书面知情同意书且未撤回研究中的同意。 然后,我们将来自多个国家的多个文库中的单细胞合并,使用RCAv2软件对这些细胞组合进行参考投影到免疫细胞转录组的参考面板上。 并基于参考投影系数的主要成分进行了最近邻分析。 我们在Seurat中运行了Louvain聚类,其分辨率取决于细胞组合的大小,在包含更多细胞的较大集合中增加分辨率。 我们根据RCAv2分配给每个集群内细胞的主要细胞类型注释标签的多数投票来标注这些聚类。 我们对所有文库中的所有单细胞进行了细胞类型特定的质量控制,通过应用针对每种主要细胞类型(B、CD34+造血干细胞和祖细胞(HSPC)、髓系(包括单核细胞和常规树突状细胞)、自然杀伤细胞(NK)、浆细胞、浆细胞样树突状细胞(pDC)、血小板、T)手动确定的每个细胞的NODG和百分比线粒体读取过滤器。 在我们的scRNA-seq分析中,这些主要细胞类型在基因表达空间中基本是不同的(NK和T细胞除外)。 例如,我们的NODG过滤器排除了任何NODG<500的髓系细胞以及任何其他白细胞NODG<1,000。 我们的pMito过滤器排除了任何pMito>12.5%的细胞(对于浆细胞和血小板)和pMito>8%的其他主要细胞类型。 我们仅包括在我们指定的NODG和pMito范围内的细胞,用于细胞类型注释和下游分析。 AIDA data freezes AIDA数据冻结
Para_01 在经过这两个阶段的质量控制后,AIDA数据冻结版v1包含了来自503名亚洲捐赠者和5名欧洲对照(Lonza 4W-270,批次号为3038099、3038016、3038097、3038306和3030004)的1,058,909个PBMC,在日本、新加坡和韩国进行分析。 我们通过Chan Zuckerberg(CZ)CELLxGENE数据门户以及HCA数据门户向研究社区发布了这个初步的AIDA数据冻结版,未公开发表。 AIDA数据冻结版v1数据集也是2023年5月组建的第一个CZ CELLxGENE普查的一部分。 AIDA数据冻结版v1数据集中的503名亚洲捐赠者包括75名新加坡华人、60名新加坡印度人、54名新加坡马来人、149名日本日本人和165名韩国韩国人捐赠者。 AIDA数据冻结版v1基因细胞矩阵包含BCR-seq和TCR-seq元数据,以及捐赠者的年龄、性别和自我报告的种族元数据,可以通过CZ CELLxGENE数据门户获取,网址是https://cellxgene.cziscience.com/collections/ced320a1-29f3-47c1-a735-513c7084d508。 Para_02 从AIDA数据冻结版本1到AIDA数据冻结版本2,我们排除了v1中的5名亚洲捐赠者(SG_HEL_H141、SG_HEL_H185、SG_HEL_H203、SG_HEL_H239和SG_HEL_H347),因为他们有模糊的用药数据。 我们增加了121名新的亚洲捐赠者(包括32名新加坡捐赠者、59名泰国泰裔捐赠者和30名印度印度裔捐赠者)。 这些新加入的亚洲捐赠者包括捐赠者SG_HEL_H262和SG_HEL_H269,以及在实验批次SG_HEL_B023、SG_HEL_B024、TH_MAH_B001、TH_MAH_B002、TH_MAH_B003、TH_MAH_B004、IN_NIB_B001和IN_NIB_B002中被分析的捐赠者。 此外,我们还移除了两个高双细胞率的文库(SG_HEL_B011_L002和SG_HEL_B021_L001)。 Para_03 AIDA数据冻结版v2,这是我们在这项研究和出版物中关注的数据集,包含了来自619名亚洲捐赠者和6名欧洲对照组的1,265,624个PBMC(每个文库检测到的基因数量的中位数:1342-2296,93个文库的基因数量中位数为2003;每个文库的线粒体读取比例的中位数:2.07%-4.08%,93个文库的线粒体读取比例中位数为3.53%)(图S1D)。 我们识别出每名捐赠者中高置信度BCR条形码的中位数为122个,高置信度TCR条形码的中位数为986个(图S1E)。 Cell population-specific quality control, data integration, sub-clustering, and cell type annotation 细胞群体特异性质量控制、数据整合、亚聚类和细胞类型注释
Para_01 我们分别对以下细胞群进行了细胞群体特异性质量控制(QC)、特征选择、数据整合、亚聚类和细胞类型注释:1)B细胞;2)pDCs和髓系细胞;以及3)ILC、NK和T细胞。 对于ILC、NK和T细胞,我们对以下两个细胞群分别进行了第二轮特征选择、数据整合以及重新聚类:3a)CD4+ T和dnT细胞,以及3b)那些既不是CD4+ T也不是dnT细胞的ILC、NK和T细胞。 Para_02 我们利用了在我们感兴趣的细胞群体中由≥0.1%的细胞表达的基因进行分析。 我们首先识别了在以下每种细胞类型中由≥0.1%的细胞表达的基因:B、pDC、髓系、NK和T。 我们将这些基因的并集保留下来,用于联合的pDC和髓系细胞群体,以及联合的NK和T细胞群体。 然后,我们通过保留基因的总表达量重新标准化相应的基因-细胞矩阵(B;pDC和髓系;NK和T)。 Para_03 我们排除了具有升高的血小板标记基因表达的细胞,通过在第一次亚聚类分析前进行血小板标记基因质量控制步骤。 我们分别识别了1) B细胞,2) pDC和髓系细胞,以及3) ILC、NK和T细胞中的血小板基因表达分布。 我们将那些在四个血小板标记基因(ITGA2B、PF4、PPBP、TUBB1)非零表达总和中位于前30%的细胞从第一次特定细胞群体数据整合、亚聚类和细胞类型注释程序中排除。 Para_04 在血小板标记基因质量控制步骤之后,我们重新识别了在我们感兴趣的细胞群体中由≥0.1%的细胞表达的基因。 在每次数据整合之前,对达到表达阈值的基因进行了重新识别。 Para_05 我们使用了 Seurat 锚点整合双向主成分分析(RPCA)算法进行数据整合。 我们将所有的单细胞 RNA 测序文库进行了整合,并将每个单细胞 RNA 测序文库视为一个批次。 Para_06 对于每个库,我们使用 Seurat 中的方差稳定变换选项进行了对数归一化,并识别了前 2,000 个高度可变特征。 我们使用 Seurat 的 SelectIntegrationFeatures 函数选择了整合特征,对每个库进行了缩放,并使用这些整合特征进行了主成分分析。 我们选择了感兴趣的细胞群中细胞数量最多的库作为我们的参考数据集。 我们通过 Seurat 的 RPCA 使用这个参考数据集和前 30 个主成分确定了整合锚点。 然后,我们使用 Seurat 的 IntegrateData 和其默认参数(例如,前 30 个维度以及 k.weight=100 用于锚点加权过程中的邻居数量)进行了数据整合。 Para_07 我们使用多种数据整合算法验证了在不同人群组中观察到的细胞类型比例差异。 为了进行这些一致性分析,除了我们之前提到的Seurat RPCA工作流程外,我们还独立地使用Harmony进行了数据整合,将每个scRNA-seq文库视为一个批次。 我们通过所有scRNA-seq文库中普遍存在的高可变基因(HVG)选择了高度可变基因(Harmony-HVG),随后进行了Harmony整合、Harmony-HVG嵌入中的亚聚类和细胞类型注释。 Para_08 我们使用集成嵌入主成分进行了亚聚类,并使用Seurat FindMarkers差异基因表达函数中实现的单细胞Wilcoxon秩和检验确定了一个簇相对于所有其他簇的标记基因。 然后,我们基于从文献中整理出的标记基因以及通过检查我们数据集中各簇之间的基因表达情况对细胞进行了注释(表S2)。 我们的细胞类型注释框架涉及四个层次来注释亚簇(图S2B和S2C)。 在最详细的层次("层级4"),我们命名并描述了各个亚簇,我们在本研究中将其称为簇身份。 我们将这些亚簇手动合并到PBMC聚类层次结构中更高级别上广泛认可的细胞亚型。 我们使用文献中定义良好的细胞类型描述符(例如,幼稚、记忆)以及标记基因及其表达水平升高/降低(分别表示为hi/lo)进行命名。 我们考虑了簇中标记基因的表达倍数变化,以及根据单细胞Wilcoxon秩和检验,簇内表达感兴趣标记基因的细胞比例,用于注释命名(例如,log2(倍数变化)>0.5且>50%的簇表达该基因,用于对该基因进行"hi"注释)。 为了区分T细胞簇,我们考虑了簇内具有高置信度TCR条形码的细胞比例。 尽可能详细地注释了簇,但在没有充分证据支持更详细注释的情况下,将注释留到了较粗略的层次或描述为"未知"(例如,CD4+_T_unknown而不是特定的CD4+ T亚型)。 我们也标记了似乎具有1)血小板基因表达升高;2)低范围的NODG值、细胞类型中应该表达的标志性基因表达降低以及相对于其他簇而言高度表达的基因(例如,在PBMC scRNA-seq数据集中通常高度表达的长非编码RNA基因MALAT1、NEAT1);以及3)来自其他谱系或细胞类型的标记基因表达升高的簇,以供下游解释时注意。 Cell type proportion analyses 细胞类型比例分析
Para_01 为了我们的分析,我们关注了至少有50个供体的人口群体,至少有800个细胞通过我们质量控制过滤的供体,以及每个供体平均至少有约10个细胞的细胞亚型。 我们利用自报种族、年龄、女性/男性性别及其两两交互项的线性模型来检查这些人类多样性的维度与免疫细胞类型和亚型的log10(比例)之间的相关性。 在正文中,我们主要报告了基于每个供体所有PBMC的比例的发现,尽管我们也评估了其他比例,如所有NK、T和ILC细胞(用于NK和T细胞亚型),以防止可能的整体髓系或淋巴系细胞数量在不同人口群体之间发生变化。 Para_02 为了计算细胞亚型比例变化中由感兴趣的人类多样性维度解释的部分,我们检查了多元R2值(相当于解释的方差)来自线性回归模型。 我们将全模型(包括年龄、BMI、性别、吸烟状态和自我报告的种族,或者分别,遗传祖先用我们基因型PCA的第一到第三个主成分表示)与不包含感兴趣协变量的模型进行了比较。 例如,为了评估遗传祖先的影响,我们考虑了全模型(Age+BMI+Sex+Smoking+Genotype_PC1+Genotype_PC2+Genotype_PC3)与仅包含Age+BMI+Sex+Smoking的模型。 我们分别检查了自我报告的种族和遗传祖先,在不同的回归模型集中,没有将这两种类型的协变量结合起来。 我们将全模型与不包含感兴趣协变量的模型之间的多元R2值差异作为感兴趣协变量所解释的增量方差。 这种方法使我们能够控制可能的混杂因素。 我们专注于新加坡供体,这些供体的所有感兴趣的协变量都有完整的元数据可用,使用每个新加坡供体的总PBMCs(不含血小板)作为分母进行分析。 Para_03 为了验证自我报告的种族对细胞亚型比例的影响,我们分析了新加坡纵向老龄化研究第二波(SLAS-2)的流式细胞术数据集,该数据集在已发表的研究中进行了分析。 该数据集包括了55至94岁之间的824名捐赠者,其中包括719名SG_中国人、40名SG_印度人和65名SG_马来人捐赠者。 在上述研究中,简而言之,使用FlowJo软件(BD)分析了流式细胞术数据。 在FlowJo中设定了细胞群体,并将每个细胞群体的事件计数导出到Microsoft Excel中以计算细胞群体的频率。 我们使用了一个模型,即log10(比例)∼年龄+性别+个人自我报告的种族(例如,SG_中国人或SG_印度人或SG_马来人),并且使用PBMCs/单细胞/活细胞/CD34+CD45+事件计数(总白细胞)作为这些分析的分母。 这与我们在针对新加坡人群组的AIDA scRNA-seq分析中使用的线性模型相同,其中以不含血小板的总PBMCs作为分母。 Para_04 统计检验,包括计算双尾t检验和双尾Wilcoxon等级和检验的p值,在R中进行。 对于交互项分析,鉴于包含所有成对交互项时进行的大量统计检验,我们在所有p值上进行了Benjamini-Hochberg多重检验校正48。 我们分别对基于AIDA Seurat RPCA嵌入与AIDA Harmony嵌入的分析进行了这种校正。 我们的校正程序包括了除截距项外的所有系数的p值。 图表使用R包ggplot2生成。 Cell neighbourhood enrichment analyses 细胞邻域富集分析
Para_01 我们进行了两种类型的细胞邻域富集分析。 我们首先检查了整个人类多样性单一维度在整个AIDA图谱中的影响。 根据我们在《细胞群体特异性质量控制、数据整合、亚聚类和细胞类型注释方法》章节中描述的Seurat RPCA工作流程,我们对所有细胞和所有文库进行了Seurat RPCA整合。 从得到的整合嵌入中,我们仅考虑了至少有50个供体的人口群体进行细胞邻域富集分析。 我们使用整合嵌入中的前30个主成分来识别我们的图谱中每个细胞的最近500个邻居,并计算与感兴趣的多样性维度(即女性或男性性别、自报告的一个种族、四个年龄范围之一(以年为单位,年龄分别为19至32岁、33至40岁、41至49岁、50至77岁))对应的细胞数量以及与补集(即所有其他性别的细胞、其他自报告的种族或另一组年龄范围)对应的细胞数量。 我们将这两个值的比例归一化为对应于多样性维度的图谱中总细胞数与对应于补集的总细胞数的比例。 然后,我们对这些值进行了log2变换,并将这些值叠加到基因表达UMAP上。 在这些初始的邻域分析中,我们分别而不是组合地检查了性别、年龄或自报告种族的影响。 Para_02 接下来,我们使用了MiloR版本1.550来测试不同细胞邻域丰度的差异,模型考虑了人类多样性的多个维度(自报种族、年龄和女性/男性性别)。 MiloR分析允许重叠的细胞邻域,并计算空间假发现率(FDR)。 我们对所有细胞群体组合(1)B;(2)pDC和髓系;(3)CD4+ T和dnT;以及(4)ILC、NK和T细胞(既不是CD4+ T也不是dnT细胞)与人类多样性的维度进行了MiloR实现。 我们使用Seurat RPCA整合嵌入进行MiloR分析,这是基于细胞类型注释工作流程,在去除高血小板基因表达的细胞后,通过Seurat RPCA锚点整合程序进行数据整合。 对于每个供体至少有800个细胞的情况下,我们执行了以下工作流程。 我们设定了k=900,使得邻域大小直方图的峰值约为3000,这大约是通过MiloR工作流程分析的供体数量的5倍。 我们使用了Age+Sex+Self_reported_ethnicity模型来进行不同细胞邻域丰度的测试,在研究特定自报种族相关的细胞邻域富集时,用SG_Chinese、SG_Indian或SG_Malay代替自报种族术语。 当我们考察女性/男性性别或自报种族的影响时,我们将年龄视为连续变量;而在考察年龄影响时,我们将年龄分为50-77岁和<50岁两类。 我们使用基于图形的采样细化方案运行了MiloR,以识别邻域,并使用图形重叠选项进行空间FDR加权方案。 我们确定了每种感兴趣的细胞群体和人类多样性维度组合中,最丰富和最少丰富的邻域,特别关注空间FDR<0.1的邻域。 我们也通过子聚类细胞类型注释生成蜂群图的方式检查了这些富集模式。 我们通过Seurat FindMarkers中实现的单细胞Wilcoxon秩和检验进行了差异基因表达分析,以识别邻域相关的标记基因,将感兴趣的邻域内的细胞(通过邻域内细胞亚型注释的多数投票确定)与所有其他被注释为相同细胞亚型的细胞进行比较。 我们通过绘制感兴趣的人类多样性维度下,每个细胞在其所属的所有重叠邻域中的平均倍数变化的对数转换值来可视化细胞邻域富集情况。 Para_03 为了检查新加坡自报种族协变量在图4D和4E中的影响,我们仅对新加坡供体(每个供体至少800个细胞)进行了上述MiloR工作流程。 Differential gene expression analyses 差异基因表达分析
Para_01 我们对伪批量基因表达数据进行了edgeR(R包版本3.38.4)分析;基准研究表明,该edgeR对数似然伪批量测试流程在减少假阳性发现方面表现良好。 我们的edgeR分析仅考虑了至少有800个通过质量控制的PBMCs的新加坡供者,以尽量减少研究地点之间技术差异带来的混淆。 对于每种细胞亚型,我们只考虑了至少有10个细胞的供者。 然后,我们通过对每种感兴趣的细胞类型或亚型的基因-细胞计数矩阵进行聚合来获得伪批量谱系。 我们预先过滤了基因列表以去除低表达基因:在伪批量聚合后,我们保留了在至少10%的供者中表达的基因,进一步筛选掉了那些UMI数量少于被考虑用于细胞亚型差异基因表达分析的供者总数的基因。 Para_02 我们将年龄、性别和单细胞RNA测序实验批次作为协变量纳入edgeR广义线性模型,并通过比较新加坡自报族裔(新加坡华人、新加坡马来人或新加坡印度人)中的一个与另外两个新加坡人群组来分析不同人群间的基因表达差异。 我们通过为每个自报族裔-细胞亚型组合分析的基因计算边缘校正的Benjamini-Hochberg校正的假发现率(FDR)来分析基因表达。 对于每种自报族裔-细胞亚型组合分析的基因,我们使用edgeR的p值进行Benjamini-Hochberg校正以计算假发现率(FDR)。 这些计算是通过对每个自报族裔-细胞亚型组合分析的基因进行边缘校正来完成的。 Para_03 除了上述每个细胞亚型的分析之外,我们还使用类似的流程对群体(SG_华人-SG_马来,SG_马来-SG_印度,SG_印度-SG_华人)进行了伪批量PBMC的成对比较。 为此,我们将每个供体的所有PBMC的基因-细胞计数矩阵汇总成基因-供体计数矩阵。 使用这些成对比较中的edgeR log2(倍数变化)值与新加坡综合组学研究中全血微阵列数据报告的成对log2(倍数变化)值进行一致性分析。 对于此分析,我们通过对所有群体成对比较的edgeR p值进行Benjamini-Hochberg校正来计算错误发现率(FDR)。 Para_04 我们使用了 clusterProfiler 版本 4.4.4102 进行基因集富集分析(GSEA)和 GSEA 结果的可视化。 我们在 GSEA 分析中使用了带有基因本体(GO)生物过程术语的 fgseaMultilevel 选项,并使用 Benjamini-Hochberg 校正的错误发现率48。 对于每个自报告的种族-细胞亚型组合,我们提供了一个预排名的基因列表,该列表包含了每种组合中所有测试的差异表达基因,按 edgeR p 值的 -log10 倍数以及 edgeR 对数值变化的符号进行排序。 Differential transcription factor activity analyses 差异转录因子活性分析
Para_01 我们实施了一个基于SCENIC的流程来研究基于我们的单细胞RNA测序数据的差异转录因子活性,并使用AIDA数据冻结版本1的数据集进行这些分析。 我们使用了pySCENIC版本的SCENIC,从一个经过筛选的包含1,390个转录因子的列表开始,该列表是人类转录因子列表的一个子集,并利用了Motif2TF版本10注释和hg38 refseq_r80 SCENIC+基序数据库,在基因转录起始位点两侧各10kb的搜索范围内。 我们使用默认参数执行了GRNBoost2和cisTarget,以优先考虑感兴趣的转录因子及其目标基因(每个转录因子统称为"调控网络")。 我们使用AUCell检查了每个感兴趣的细胞类型的调控网络活性,并通过两尾Wilcoxon秩和检验,以细胞类型特异性的方式比较了不同群体内供体每个细胞亚型的原始AUCell评分中位数分布。 通过Python中的两尾Wilcoxon秩和检验计算了每个自我报告种族的男性与女性之间的FDR值。 这种计算采用了所有两尾Wilcoxon秩和p值的Benjamini-Hochberg校正,用于SCENIC GRNBoost2试验-AUCell分析组合中的每个调控网络。 Para_02 为了我们的SCENIC工作流程,我们评估了多个参数来检查我们所识别的兴趣调控因子推断的稳健性。 我们在确定目标基因的调控因子集合时进行了至少10次GRNBoost2试验。 我们改变了每个细胞基因排名中被AUCell计算过程考虑的基因比例,考察了考虑前5%、10%和15%的基因排名结果。 我们使用跨越所有新加坡图书馆所有细胞的综合基因-细胞矩阵以及每个新加坡人群组细胞子集来识别GRNBoost2调控因子。 我们测试了来自多次GRNBoost2试验的调控因子以及跨试验调控因子目标基因的联合。 我们还测试了伪批量输入(在基因-细胞矩阵内,对供体中的特定细胞亚型的所有细胞进行求和,以获得每个细胞亚型的基因-供体矩阵)以及原始scRNA-seq输入用于我们的AUCell计算。 在这项研究中,我们报告了在多次SCENIC GRNBoost2试验-AUCell分析组合中观察到的结果。 Single-cell pseudobulk expression quantitative trait loci (eQTL) pipeline 单细胞伪bulk表达数量性状位点(eQTL)流程
Para_01 我们开发了一个单细胞伪批量表达数量性状位点(eQTL)分析流程,并使用AIDA数据冻结版本1数据集进行这些分析。 对于基因表达值,我们计算了感兴趣的每个细胞亚型的伪批量值。 首先,我们过滤掉了在感兴趣细胞亚型中由<1%的细胞表达的基因,以及供体和细胞,这些供体中每种细胞亚型的细胞少于10个。 我们将剩余的每个基因按保留基因每细胞的总UMI数进行标准化,并从感兴趣的细胞亚型的细胞中计算出每个供体的平均基因表达值。 为了近似每个供体的平均基因表达值的正态分布,我们对数据进行了log1p转换,比例因子为10,000。 对于感兴趣的遗传变异,经过上述描述的质量控制和填补程序后,我们保留了在AIDA队列中次要等位基因频率≥5%的常染色体双等位基因变异。 我们去除了相关的供体(这是在应用前述供体细胞数量过滤器后针对每个细胞亚型计算的)。 Para_02 我们使用了Matrix eQTL(R包版本2.3)进行关联测试和FDR计算,以识别与感兴趣基因相距1Mb内的细胞类型特异性顺式eQTL,并保留了所有执行的测试结果,无论p值如何,用于下游分析。 我们使用了Matrix eQTL的加性线性模型,该模型返回t统计量和双尾t检验p值。 我们的eQTL模型包括以下协变量:年龄、性别、自我报告的种族和/或国家、前10个基因型主成分和前10个基因表达主成分(按细胞亚型计算)。 我们还使用默认参数进行了EigenMT计算,以优先确定每个基因的一个主要SNP。 Para_03 我们通过比较AIDA易位子与DICE70和ImmuNexUT71项目中鉴定的易位子来执行易位子复制。 DICE易位子作为EMBL-EBI易位子目录的一部分进行了统一处理。 我们将AIDA幼稚B细胞易位子与易位子目录数据集QTD000474进行比较,将AIDA CD4+ T幼稚细胞易位子与易位子目录数据集QTD000479进行比较, 将AIDA CD8+ T幼稚细胞易位子与易位子目录数据集QTD000489进行比较,将AIDA CD14+单核细胞易位子与易位子目录数据集QTD000504进行比较, 将AIDA CD16+ NK易位子与易位子目录数据集QTD000509进行比较。 对于使用ImmuNexUT数据集进行的易位子复制分析,我们分析了NBDC人类数据库数据集E-GEAD-420。 对于FDR<0.05的感兴趣的细胞亚型中的AIDA易位子,我们识别出具有SNP ID-基因组合匹配的DICE/ImmuNexUT数据,并将AIDA数据集中的beta值与相应的DICE/ImmuNexUT数据集进行比较。 Para_04 为了比较GTEx v8全血eQTL17,我们分析了eQTL目录数据集QTD000356。 我们将所有细胞亚型的所有测试中AIDA eQTL集合(FDR<0.05(Benjamini-Hochberg校正48的p值))与在GTEx v8全血数据集中发现的eQTL(Benjamini-Hochberg校正48的p值<0.05)进行了比较,重点是两个研究中都检测到的SNP。 由于我们将来自20个AIDA细胞亚型数据集的所有eQTL与GTEx v8全血eQTL数据集进行了比较,我们仅限于分析上述在所有细胞亚型的所有测试中具有FDR<0.05(Benjamini-Hochberg校正48的p值)的AIDA eQTL集合。 Para_05 我们从ENSEMBL第105版(https://ftp.ensembl.org/pub/release-105/variation/vcf/homo_sapiens/,文件日期20210906)获取了1000基因组计划超级人群等位基因频率,将参考/替代等位基因频率转换为较低的等位基因频率每对参考-替代等位基因,并获得了我们能够在1000基因组VCF文件中识别出SNP ID匹配的任何AIDA eQTL的较低等位基因频率。 Colocalisation of eQTLs with variants identified through genome-wide association studies (GWAS) eQTLs与全基因组关联研究(GWAS)鉴定的变异位点的共定位
Para_01 我们从全基因组关联研究(GWAS)中的免疫相关疾病(哮喘、类风湿关节炎、系统性红斑狼疮(SLE)、格雷夫斯病、特应性皮炎和1型糖尿病)与对照组,以及住院的COVID-19病例与普通人群之间的比较中编制了总结统计信息,并且所有这些研究都包括跨种族研究中的亚洲队列或完全通过研究亚洲供体进行。 我们使用了coloc版本5.2.3,利用了coloc R软件包中的近似贝叶斯因子118枚举实现,该实现假设每个表型最多只有一个因果变异。 我们对GWAS和eQTL(每个e基因)特征进行了共定位分析。 我们使用coloc计算了eQTL分析和GWAS分析中每种可能的显著遗传关联情景的后验概率。 我们特别关注后验概率(PP;"coloc_PP_H4_abf"),即基因表达(eQTL)和疾病风险(GWAS)特征与单个因果变异相关的可能性,我们在正文中将其简称为"共定位PP"。 我们使用LocusCompareR可视化共定位事件,将人口参数设置为"EAS",并选择了hg38选项,考虑到我们的GWAS汇总统计数据的格式和范围。 Context-dependent eQTL analyses 上下文依赖的eQTL分析
Para_01 我们使用了AIDA Data Freeze v1数据集进行这些分析。 我们检查了通过我们的单细胞伪批量表达数量性状位点(eQTL)管道识别出的显著eQTL-eGene对(每个细胞亚型的FDR<0.05),这些对在不同背景下具有eQTL效应。 我们交叉分析了幼稚B细胞、IGHMhi记忆B细胞和IGHMlo记忆B细胞中的eQTL-eGene对,总共分析了54,798个SNP-基因对。 为了尽量减少批次效应对基因模块组装的影响,我们分别对AIDA Data Freeze v1数据集中来自日本、新加坡和韩国的记忆B细胞进行了以下平滑和基因-基因相关性程序处理。 我们进行了基于k近邻的基因-细胞矩阵平滑处理,通过计算每个细胞及其最近30个邻居的基因表达平均值得到了每个细胞的平滑表达值。 我们进行了基因-基因相关性分析,然后将三个国家的基因-基因相关性矩阵平均,得到一个单一的基因-基因相关性矩阵。 之后,我们使用WGCNA107来识别基因模块,这些模块被用来建模细胞环境和细胞状态。 Para_02 为了识别上下文依赖的eQTL效应,我们通过计算属于相关模块的基因表达值的平均值得到了每个记忆B细胞的模块评分。 我们使用单变量泊松模型测试了供体基因型和模块评分对每个细胞基因表达的交互作用,该模型是通过R中的lme4::glmer108实现的:全模型:E∼βgXg+βageXage+βsexXsex+βethnicityXethnicity+∑110βgPCXgPC+∑110βePCXePC+βnUMIXnUMI+(ϕd|d)+(ϕlib|lib)+βmodule_scoreXmodule_score+βg∗module_scoreXg∗Xmodule_score Para_03 E代表感兴趣的每个基因在目标细胞中的UMI计数,g代表供体基因型,gPC代表基于基因-细胞矩阵PCA的基因型主成分,ePC代表基于基因表达PCA的基因表达主成分,nUMI代表细胞的UMI总计数,d代表供体,lib代表单细胞RNA测序文库。所有协变量都被建模为固定效应,除了供体和文库,它们被建模为随机效应。 All covariates are modelled as fixed effects, except for donor and library, which are modelled as random effects. Para_04 空模型是使用与全模型相同的协变量计算的,只是去掉了 βg∗module_scoreXg∗Xmodule_score 项。p 值是使用 R 中的 anova 函数为每个全模型-空模型对计算的。我们在所有 p 值上计算了 Benjamini-Hochberg 校正的错误发现率。 我们计算了 Benjamini-Hochberg 校正的错误发现率48 跨越所有 p 值。 Quantification and statistical analysis 量化和统计分析
Para_01 所有统计检验均使用R、R软件包或Python进行,具体的检验细节列在各个方法部分。 执行的所有统计检验均为双尾检验。 Supplemental information Para_01 下载:下载电子表格(37KB)表 S1。AIDA 供体元数据:供体 DCP_ID、自报种族、年龄、国家(研究地点)、女性/男性性别、BMI、吸烟状态和单细胞 RNA 测序实验批次,与图 1 相关。 下载:下载 Acrobat PDF 文件(201KB)文档 S1。表 S2-S4。 下载:下载电子表格(539KB)表 S5。通过 edgeR 分析确定的新加坡自报种族相关的差异表达基因列表,与图 5 和 S6 相关。(A)每个供体每个细胞类型的伪批量值(每个自报种族-细胞亚型组合的 FDR < 0.05)。 (B)每个供体的伪批量 PBMC(所有比较的 FDR < 0.05)。 下载:下载电子表格(18MB)表 S6。具有 FDR < 0.05 的 143,918 个 SNP-基因对列表,来自 Benjamini-Hochberg 校正后的 eigenMT 校正的 p 值,与图 6 相关。 下载:下载电子表格(47KB)表 S7。AIDA eQTL 和 GWAS 的共定位分析:两种性状关联且共享单一因果变异的后验概率大于 80%(coloc_PP_H4_abf),与图 7 相关。(A)纳入共定位分析的精选疾病 GWAS 汇总统计数据。 (B)coloc_PP_H4_abf > 0.80 的组合列表。