文章标题:《Single-Cell RNA Sequencing of Peripheral Blood Reveals Immune Cell Signatures in Alzheimer’s Disease》
发表日期和杂志:2021年发表在Frontiers in Immunology上
在线阅读链接:https://doi.org/10.3389%2Ffimmu.2021.645666
使用了来自AD和两种NC患者的新鲜PBMC,在单细胞5'基因表达测序并汇总cell Ranger的所有样本数据后,我们最终获得36849个单细胞,包括22775个AD患者细胞和14074个NC患者细胞。
数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE181279
GSM5494107 AD1_GEX
GSM5494108 AD1_BCR
GSM5494109 AD1_TCR
GSM5494110 AD2_GEX
GSM5494111 AD2_BCR
GSM5494112 AD2_TCR
GSM5494113 AD3_GEX
GSM5494114 AD3_BCR
GSM5494115 AD3_TCR
GSM5494116 NC1_GEX
GSM5494117 NC1_BCR
GSM5494118 NC1_TCR
GSM5494119 NC2_GEX
GSM5494120 NC2_BCR
GSM5494121 NC2_TCR
提供了10X标准格式的三个文件,不过我们直接下载后按照数据集整理对应的文件,使用Read10X()函数读取即可。
GSM5494107_AD1_barcodes.tsv.gz 36.6 Kb
GSM5494107_AD1_features.tsv.gz 302.7 Kb
GSM5494107_AD1_matrix.mtx.gz 44.2 Mb
GSM5494110_AD2_barcodes.tsv.gz 38.3 Kb
GSM5494110_AD2_features.tsv.gz 302.7 Kb
GSM5494110_AD2_matrix.mtx.gz 40.9 Mb
GSM5494113_AD3_barcodes.tsv.gz 35.9 Kb
GSM5494113_AD3_features.tsv.gz 302.7 Kb
GSM5494113_AD3_matrix.mtx.gz 40.8 Mb
GSM5494116_NC1_barcodes.tsv.gz 34.8 Kb
GSM5494116_NC1_features.tsv.gz 302.7 Kb
GSM5494116_NC1_matrix.mtx.gz 32.6 Mb
GSM5494119_NC2_barcodes.tsv.gz 34.0 Kb
GSM5494119_NC2_features.tsv.gz 302.7 Kb
GSM5494119_NC2_matrix.mtx.gz 31.2 Mb
数据整理:下载数据,然后按照数据集名称对应的整理
fs=list.files('./','features.tsv.gz')
fs
samples1=gsub('-features.tsv.gz','',fs)
samples1
library(stringr)
samples2= gsub('-filtered','',samples1)
samples2
lapply(1:length(samples2), function(i){
x=samples2[i]
y=samples1[i]
dir.create(x,recursive = T)
file.copy(from=paste0(y,'-features.tsv.gz'),
to=file.path(x, 'features.tsv.gz' ))
file.copy(from=paste0(y,'-matrix.mtx.gz'),
to= file.path(x, 'matrix.mtx.gz' ) )
file.copy(from=paste0(y,'-barcodes.tsv.gz'),
to= file.path(x, 'barcodes.tsv.gz' ))
})
读取数据,创建seurat结构进行后续的分析。
###### step1:导入数据 ######
library(data.table)
dir='GSE181279_RAW/outputs/'
samples=list.files( dir )
samples
# samples = head(samples,10)
sceList = lapply(samples,function(pro){
# pro=samples[1]
print(pro)
sce =CreateSeuratObject(counts = Read10X(file.path(dir,pro )) ,
project = gsub('^GSM[0-9]*_','',pro) ,
min.cells = 5,
min.features = 500 )
return(sce)
})
names(sceList)
# gsub('^GSM[0-9]*','',samples)
sce.all=merge(x=sceList[[1]],
y=sceList[ -1 ],
add.cell.ids = gsub('_gene_cell_exprs_table.txt.gz','',gsub('^GSM[0-9]*_','',samples) ) )
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$orig.ident)
#确定分组信息
sce.all$group=toupper( substring(colnames(sce.all),1,2))
table(sce.all@meta.data$group)
table(sce.all@meta.data$orig.ident)
在批量读取数据之前,一般要先读取一个数据用来进行测试,确认无误后,再使用循环批量读取全部的数据用于后续的分析。
后面就是标准分析啦,对读取进来的数据进行质控、harmony整合以及细分亚群定义等。
使用t-SNE分析在二维空间中可视化细胞,发现21个簇代表不同的细胞类型。鉴定了五种主要的免疫细胞类型
并且发现AD和NC在t-SNE图中是分离的,这表明基因表达模式存在主要差异。
与NC相比,AD组CD4+T细胞数量显著增加。相反,AD组CD8、NK和单核巨噬细胞的比例显著低于NC。B细胞的比例在两组之间没有显著差异。
分别筛选了AD组和NC组(| log2fc | >0.5)和FDR <0.05)各类型免疫细胞的差异表达基因,使用圆环图显示来自多个基因的基因列表从五个免疫细胞重叠子集。
通过富集分析找到了前20个显著丰富的术语
为了进一步捕获丰富术语之间的关系,选择了丰富术语的子集,并将其呈现为相似性网络。
使用Metascape构建PPI网络
整合了不同免疫细胞簇的差异表达基因,剔除重叠基因后,共获得436个基因。为了描述这些基因之间的相互作用,使用Metascape构建了一个PPI网络。
根据程度排序法选择了前40个基因进行子网络分析,并使用MCODE算法确定了三个模块具有显著意义,这三个模块包含31个基因,它们被确定为关键基因。
对T细胞和B细胞进行了受体谱系分析
T细胞
B细胞