文章标题:《A single‐cell RNA expression atlas of normal, preneoplastic and tumorigenic states in the human breast》
发表日期和杂志:2021年发表在The EMBO Journal上
在线阅读链接:https://doi.org/10.15252/embj.2020107333
疾病简介
乳腺癌是一种发生在乳腺组织中的恶性肿瘤。它是女性中最常见的癌症类型之一,尽管男性也有患乳腺癌的可能,但这种情况相对罕见。乳腺癌可以发生在乳腺的任何部位,但最常见于乳腺的导管和腺泡,这些结构分别负责产生乳汁和输送乳汁。
乳腺癌的确切原因尚不完全清楚,但已知有多种风险因素可能增加患病的可能性,包括:
乳腺癌的症状可能包括:
单细胞实验设计
为了研究不同状态下乳腺异质性的变化,使用10X基因组学平台提供了69个scRNA-seq图谱,包括来自52名患者的总共421,761个细胞。
包括4例TNBC、4例BRCA1 TNBC、6例HER+肿瘤、19例ER+肿瘤和6例ER+肿瘤的淋巴结转移。它还包括13例未患乳腺癌的正常患者的总乳腺细胞,11例正常患者的乳腺上皮细胞,以及4例BRCA1突变的癌前患者的总乳腺细胞。
数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE161529
数据情况:
·
因为数据量比较大,用自己的电脑不一定能够运行得起来,所以需要的话可以使用服务器的网页版Rstudio server来分析
如果使用的是技能树的共享服务器的话,已经安装好了网页版Rstudio,了解一下如何使用即可。
提供的是10X格式的标准三个文件,选择下载数据之后需要对数据进行整理,将三个文件分别整理到对应的文件夹中。
#整理文件
fs=list.files('./','features')
fs
samples1= gsub('.tsv.gz','',gsub('features.','',fs))
samples1
samples2 = samples1
lapply(1:length(samples2), function(i){
x=samples2[i]
y=fs[i]
dir.create(x,recursive = T)
file.copy(from= y ,
to=file.path(x, 'features.tsv.gz' ))
file.copy(from= gsub('features','matrix',gsub('tsv','mtx',y)),
to= file.path(x, 'matrix.mtx.gz' ) )
file.copy(from= gsub('features','barcodes',y),
to= file.path(x, 'barcodes.tsv.gz' ))
})
可以将数据和脚本上传到服务器上,然后使用Read10X函数将数据读取进来即可进行后续的标准分析,对读取进来的数据进行质控、harmony整合以及单细胞细分亚群定义等。
为了探索正常乳腺细胞的多样性,对18名无乳腺癌家族史的女性进行了缩小乳房成形术。在其中11例乳房成形术中,根据CD49f和CD326(EpCAM)的表达对上皮细胞进行分类,然后通过scRNA‐seq进行分析。
去除了间质亚群,并重新整合了11名患者的剩余细胞。
比较绝经前(n=8)和绝经后(n=3)的女性,根据荷尔蒙状况显示出相似的集群分布。
重新聚集确认了三个主要的细胞簇加上一个非常小的中间簇。
主要集群的谱系认同是使用细胞分选和批量RNA-SEQ鉴定基础、LP和ML细胞群体的表达特征,然后根据细胞表达的基础、LP和ML特征基因的比例将每个细胞定位在三元图上。然后将t-SNE图的簇色叠加到三元图上,识别基底、LP和ML种群(图F)。潜在谱系轨迹的扩散图将基底细胞作为扩散假时间中腔谱系的潜在前驱细胞(图G)。
基底(如Krt5、ACTA2、Mylk、SNAI2)、腔前体细胞(TNFRSF11A(RANK)、KIT)和成熟腔细胞(ESR1、PGR、FOXA1)的典型乳腺谱系标记基因的表达证实了三个主要细胞群的身份。
通过热图展示了每个主要簇中的顶级差异表达(DE)基因,这些簇的表达谱在激素水平上是一致的,没有发现任何簇在绝经后和绝经前之间存在差异表达基因
t-SNE图上的基底细胞簇显示了一条明显的“尾巴”,由明显不同于簇其余部分的细胞组成。可以看到这些“尾”细胞表达LP和ML标记基因以及基础基因,因此可能是谱系启动的。
通过分析绝经前(n=8)和绝经后(n=5)女性缩乳术中分离出的总组织细胞(13例未患乳腺癌的正常患者的总乳腺细胞),研究了正常乳腺组织的免疫和间质微环境。
单细胞表达谱的整合和聚类产生了8个主要的细胞簇。
三元上皮特征图显示绿色、蓝色和红色上皮簇分别是基底细胞、LP细胞和MP细胞。
EPCAM表达显示其中3个簇为上皮细胞。通过分别根据细胞的基础、LP和MP表达特征着色细胞来确认这些身份。
相比之下,上皮-间充质转化(EMT)转录因子SNAI1、ZEB1和ZEB2在基质细胞中的表达显著增加。
为了进一步探索导管微环境中细胞的身份,去除了EpCAM+上皮细胞簇,将剩余的细胞重新聚集产生了七个非上皮簇。
聚集了来自相同个体和相同簇的细胞来形成伪整体样本表达谱,显示样本之间的转录距离。发现簇4(红色)和簇5(紫色)在表达谱方面与其他簇有很好的分离。集群2和7与集群1、3和6组成了一个子群。
与t - SNE图不同,MDS图上的距离在对数表达式变化方面是线性的。差异表达分析选择了每个簇的标记基因,鉴定出非上皮簇为成纤维细胞、内皮细胞(血管和淋巴细胞)、周细胞(血管周围细胞)、髓细胞和淋巴细胞。
组织驻留细胞在绝经前后的组织微环境中表现出一定的差异。在绝经后组织中,成纤维细胞(簇1)和血管内皮细胞(簇2)的比例分别较低和较高。
尽管患者间存在差异,但绝经前和绝经后微环境中细胞类型组成的差异在统计学上是显著的。
绝经前后患者多种细胞特异性基因的表达:全血细胞(PTPRC/CD45)、B细胞(CD79A)、T细胞(CD4、CD8a)、NK细胞(HAVR2C)、髓系/巨噬细胞(ITGAX/CD11c、ITGAM/CD11b、CD68、CD14)、周细胞(RGS5)和内皮细胞(VWF、CD36)。除某些髓系标志物外,绝经前和绝经后组织中大多数免疫亚群的几个确定的细胞标志物的表达相似。
对成纤维细胞群体(集群1)的仔细检查表明,在绝经后组织中,表达关键标记基因如PDGFRA、PDGFRB、CD34和基质相关基因POSTN和COL3A1(也称为SPARC、COL5A2、COL14A1)的细胞比例较低。
推文篇幅有限就不一一叙述了,34个未经治疗的原发肿瘤大家可以自行阅读一下