首页
学习
活动
专区
圈层
工具
发布
30 篇文章
1
使用PHATE复现Science Immunology上文章的结果
2
你确定你研究的是成纤维细胞吗
3
读取loom格式的单细胞文件
4
velocyto的正确安装方法
5
Seurat4.0系列教程20:单细胞对象的格式转换
6
Seurat4.0系列教程8:细胞周期评分和回归分析
7
MACA: 一款自动注释细胞类型的工具
8
肺癌四阶段:AAH-AIS-MIA-IA的单细胞图谱
9
你认为是双细胞人家说是全新细胞亚群
10
copykat为什么没有infercnv直观呢
11
一大波神经元单细胞亚群相关的标志基因
12
单细胞转录组分析—追踪移植后造血干细胞的分化
13
单细胞转录组揭示肺腺癌特有的肿瘤微环境
14
小细胞肺癌(SCLC)病人的scRNA-seq数据分析
15
单细胞转录组分析COVID-19重症患者肺泡巨噬细胞亚型
16
CancerSCEM: 人类癌症单细胞表达图谱数据库
17
你真的需要如此多的单细胞亚群注释工具吗
18
使用PHATE进行单细胞高维数据的可视化
19
小鼠早期原肠化的转录异质性和细胞命运决定的scRNA-seq图谱
20
单细胞测序揭示PD-L1免疫治疗联合紫杉醇化疗在三阴性乳腺癌中的作用机制
21
单细胞转录组的细分亚群的降维聚类分群加上gsea或者gsva以及转录因子和拟时序流程(仅需8000元)
22
单细胞不同亚群和状态能区分吗
23
肿瘤相关成纤维细胞异质性
24
肿瘤样品的单细胞需要提取上皮细胞继续细分
25
乳腺癌患者抗PD1治疗期间肿瘤内变化的单细胞图谱
26
晚期非小细胞肺癌肿瘤异质性和微环境的单细胞分析
27
脑组织单细胞悬液制备流程
28
什么,你想要的单细胞亚群比例太少了?
29
让Single cell UMAP注释支棱起来
30
RNAvelocity4:velocyto.R的使用
清单首页生信文章详情

CancerSCEM: 人类癌症单细胞表达图谱数据库

文章信息

文章题目:CancerSCEM: a database of single-cell expression map across various human cancers 日期:2021-09-29 期刊:Nucleic Acids Research DOI:https://doi.org/10.1093/nar/gkab905

一句话概括

一个包含人类多种癌症的scRNA数据库CancerSCEM,除了常规的分析之外,还提供网站可视化和在线分析(https://ngdc.cncb.ac.cn/cancerscem)

为什么要建这个数据库?

  • 首先肯定是因为目前产生了大量的数据集,但是公共的数据库不多,比如Single Cell Portal,PanglaoDB,Single Cell ExpressionAtlas,Human Cell Atlas Data Portal,scRNASeqDB,大部分是人和小鼠的数据。但是这些数据库只做了初步的分析,比如细胞分群、差异分析
  • 还有一些专注于疾病的scRNA数据库,比如CancerSEA、TISCH,它们提供了额外的注释和富集分析等。但CancerSEA当时只做了某些类型和某些状态下的细胞,TISCH又没有提供统一的标准化矩阵,容易导致后面用户拿到后引入批次效应

所以,CancerSCEM (Cancer Single-cell Ex- pression Map) 提供了数据搜集、整理、分析、可视化一体。目前包括人类20种癌症的208个样本的638,341个单细胞数据

数据搜集

数据来自:GEO、ArrayExpress、EBI、GSA、ZENODO,涵盖了10X Genomics, Smart-seq2, Drop-seq, Seq-Well and Microwell 5大平台,其中原始数据占比82.69%。

  • 10X数据采用cellranger V5处理;
  • 非10X数据使用Fastp+Trimmomatic+zUMIs处理

常规数据处理

质控

  • DoubletFinder用于doublets去除(标准是7% per 10 000 cells)
  • Seurat V3 进行初步质控过滤:200 ≤ nfeatures ≤ 5000 and MT < 10%

非监督聚类

PCA + tSNE + UMAP 聚类

细胞类型注释

biomarker 基因来自Cell Marker数据库,细胞注释三步走:

  • scCancer v2.2.0 + Copy- KAT v1.0.4:copy number variation assessment A group of marker genes, such as EPCAM, KRT8, KRT18, KRT19 and EGFR in glioblastoma cells that represent cancer cells or cancer stem cells, were investi- gated in parallel. Cells with significantly abnormal CNV levels and high expression levels of above marker genes were defined as malignant cells
  • Manual annotation :自己看marker基因表达 常见的比如:T cells (e.g. CD3D, CD3E), B cells (e.g. MS4A1, BANK1), Macrophages/Monocytes (e.g. CD68, CD14), Mast cells (e.g. SLC18A2, ASIC4), Endothelial cells (e.g. VWF, PECAM1), Fibroblasts (e.g. FAP, NECTIN1), Oligoden- drocytes (e.g. OLIG1, PLP1) and Astrocytes (e.g. SLC1A3, GFAP) 网站的Documents也给出了所使用的全部marker基因列表
  • SingleR: 工具注释

此外,还将T、B细胞继续进行细分亚群,最终得到了包括免疫细胞在内的33种细胞类型

差异分析

FindMarkers用来对每个细胞群进行差异分析

个性化处理步骤

  • 拿到受配体基因对:来自CelltalkDB、SingleCellSingalR、Cellinker、Cell–Cell Interaction Database、综述文章
  • 拿到Oncogenes and tumor suppressor genes(TSG):来自Cancer Gene Census (CGC)、OncoKB、Network of Cancer Genes (NCG)、TSGene、IntOGene、cancer gene clinical care study。
  • 对这些基因进行了过滤(至少在三个数据库中存在,并且在数据集呈现出类似的表达模式)
  • 拿到TCGA 的13个癌症项目的bulk RNAseq数据,看在不同癌症的组织水平上这些基因的表达模式,也当做scRNA的参考
  • 用之前得到的差异基因进行GO、KEGG富集
  • 用Hmisc进行基因表达关联分析
  • 细胞通讯用CellphoneDB
  • 生存分析用survival + survminer

数据库构建

  • 前端:Thymeleaf (a Java template engine), HTML5, CSS, AJAX, JQuery and Bootstrap
  • 后端:Spring Boot
  • 数据存储:MySQL
  • 数据读取:Mybatis
  • 交互图:Echarts, Highcharts, svg3dtagcloud.js and plotly.js
  • 表格:Bootstrap Table
下一篇
举报
领券