本期我们介绍一下如何处理rawdata
,将Reads
转为 Count Matrix
。🤩
1️⃣ 目前,大多数scRNA-seq
是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSC
(hg19
、hg38
、mm10
等),和GRC
(GRCh37
、GRCh38
、GRCm38
)。
二者在主要染色体上是对等的(如hg38
的chr1
= GRCh38
的chr1
),但在一些小的位点上会有细微差异。
基因组注释
过程包括定义基因组
的转录区域
,明确exon
和intron
,将其分成protein coding
, non-coding
等。🤯
3
个编码(红色)和2
个非编码(蓝色)。Transcript and intron-exon structure of a typical eukaryotic gene
在实际操作中,我们通常可以下载GTF
或GFF3
格式的文件进行注释。每个基因都含有一个ID
,而这个ID
是唯一的。🤗
Note! 这里也提醒大家在实际操作中,尽量使用ID
进行分析操作,而不要使用symbol
,当然在展示结果的时候你需要转换回symbol
方便阅读。🤜🤛
2️⃣ 我们常用的人类
和小鼠
基因组注释包括RefSeq
, ENSEMBL
和GENCODE
,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)
Sankey diagram of gene type changes in GENCODE versions
bulk RNA-seq
类似。Full length scRNA-seq
的raw data
的处理通常分两步进行:比对
(read alignment
)和计数
(read counting
)。STAR
和hisat2。
normalization
方法:推荐使用TPM
。1️⃣ 首先我们要搞清楚scRNA-seq
都有哪些产物。👇
cDNA
片段 (识别转录本);Cell barcode
(CB
,识别细胞);Unique Molecular Identifier
(UMI
,减小PCR扩增带来的bias
)。2️⃣ 典型的scRNA-seq
的workflow
包括以下几个步骤:👇
cDNA
mapping到reference
上;reads
;reads
(用到cell barcode
);RNA
数量(UMI
去重)。处理10x Genomics Chromium scRNAseq
数据,我们通常要用到Cell Ranger
,具体原理我们在这里就不做具体介绍了,大家有兴趣去google
一下吧。😂
这里只介绍一下外显子
(exon
)的定义,即reads
比对到外显子
的 50% 以上,就可以定义为外显子
。
Classification of aligned reads in Cell Ranger
在选择Reference
的时候,大家可以按以下table
进行选择。👇
Cell Ranger Reference | Species | Assembly/Annotation | Genes before filtering | Genes after filtering |
---|---|---|---|---|
2020-A | human | GRCh38/GENCODE v32 | 60668 | 36601 |
2020-A | mouse | mm10/GENCODE vM23 | 55421 | 32285 |
3.0.0 | human | GRCh38/Ensembl 93 | 58395 | 33538 |
3.0.0 | human | hg19/Ensembl 87 | 57905 | 32738 |
3.0.0 | mouse | mm10/Ensembl 93 | 54232 | 31053 |
2.1.0 | mouse | mm10/Ensembl 84 | 47729 | 28692 |
1.2.0 | human | GRCh38/Ensembl 84 | 60675 | 33694 |
1.2.0 | human | hg19/Ensembl 82 | 57905 | 32738 |
1.2.0 | mouse | mm10/Ensembl 84 | 47729 | 27998 |
两点👇
:reads
具有相同的barcode
和UMI
,但基因注释
却不相同,那么reads
最多的基因注释
用于UMI
计数,舍弃其他组。reads
一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释
已经不准确了。😤1️⃣ 未经过滤的raw data
, feature-barcode matrix
会包含很多空的 droplets
,在矩阵中并不是0
,因为会有来自破碎细胞
的RNA
。所以,这种数据我们需要进行过滤,而后再进行分析。🥳
2️⃣ 我们通常需要使用Cell Ranger 2.2
和Cell Ranger 3.0
进行过滤。👇
Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms
3️⃣ 举个栗子🌰
肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL
),如果你对TIL
特别感兴趣,那这个时候可能就要用到EmptyDrops
的方法来进行过滤了。
当你使用Cell Ranger
时,你可能会觉得它不够快,这里我们介绍两个速度快
、准确度高
的方法,STARsolo
和Alevin
,这里不做具体介绍了,推荐大家选择STARsolo
。🤒
最后祝大家早日不卷!~