本期我们介绍一下如何处理rawdata,将Reads转为 Count Matrix。🤩
1️⃣ 目前,大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSC(hg19、hg38、mm10等),和GRC(GRCh37、GRCh38、GRCm38)。
二者在主要染色体上是对等的(如hg38的chr1 = GRCh38的chr1),但在一些小的位点上会有细微差异。
基因组注释过程包括定义基因组的转录区域,明确exon和intron,将其分成protein coding, non-coding等。🤯
3个编码(红色)和2个非编码(蓝色)。Transcript and intron-exon structure of a typical eukaryotic gene
在实际操作中,我们通常可以下载GTF或GFF3格式的文件进行注释。每个基因都含有一个ID,而这个ID是唯一的。🤗
Note! 这里也提醒大家在实际操作中,尽量使用ID进行分析操作,而不要使用symbol,当然在展示结果的时候你需要转换回symbol方便阅读。🤜🤛
2️⃣ 我们常用的人类和小鼠基因组注释包括RefSeq, ENSEMBL和GENCODE,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)
Sankey diagram of gene type changes in GENCODE versions
bulk RNA-seq类似。Full length scRNA-seq的raw data的处理通常分两步进行:比对(read alignment)和计数 (read counting)。STAR和hisat2。normalization方法:推荐使用TPM。1️⃣ 首先我们要搞清楚scRNA-seq都有哪些产物。👇
cDNA片段 (识别转录本);Cell barcode (CB,识别细胞);Unique Molecular Identifier (UMI,减小PCR扩增带来的bias)。2️⃣ 典型的scRNA-seq的workflow包括以下几个步骤:👇
cDNAmapping到reference上;reads;reads(用到cell barcode);RNA数量(UMI去重)。处理10x Genomics Chromium scRNAseq数据,我们通常要用到Cell Ranger,具体原理我们在这里就不做具体介绍了,大家有兴趣去google一下吧。😂
这里只介绍一下外显子(exon)的定义,即reads比对到外显子的 50% 以上,就可以定义为外显子。
Classification of aligned reads in Cell Ranger
在选择Reference的时候,大家可以按以下table进行选择。👇
Cell Ranger Reference | Species | Assembly/Annotation | Genes before filtering | Genes after filtering |
|---|---|---|---|---|
2020-A | human | GRCh38/GENCODE v32 | 60668 | 36601 |
2020-A | mouse | mm10/GENCODE vM23 | 55421 | 32285 |
3.0.0 | human | GRCh38/Ensembl 93 | 58395 | 33538 |
3.0.0 | human | hg19/Ensembl 87 | 57905 | 32738 |
3.0.0 | mouse | mm10/Ensembl 93 | 54232 | 31053 |
2.1.0 | mouse | mm10/Ensembl 84 | 47729 | 28692 |
1.2.0 | human | GRCh38/Ensembl 84 | 60675 | 33694 |
1.2.0 | human | hg19/Ensembl 82 | 57905 | 32738 |
1.2.0 | mouse | mm10/Ensembl 84 | 47729 | 27998 |
两点👇:reads具有相同的barcode和UMI,但基因注释却不相同,那么reads最多的基因注释用于UMI计数,舍弃其他组。reads一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释已经不准确了。😤1️⃣ 未经过滤的raw data, feature-barcode matrix会包含很多空的 droplets,在矩阵中并不是0,因为会有来自破碎细胞的RNA。所以,这种数据我们需要进行过滤,而后再进行分析。🥳
2️⃣ 我们通常需要使用Cell Ranger 2.2和Cell Ranger 3.0进行过滤。👇
Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms
3️⃣ 举个栗子🌰
肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL),如果你对TIL特别感兴趣,那这个时候可能就要用到EmptyDrops的方法来进行过滤了。
当你使用Cell Ranger时,你可能会觉得它不够快,这里我们介绍两个速度快、准确度高的方法,STARsolo和Alevin,这里不做具体介绍了,推荐大家选择STARsolo。🤒
最后祝大家早日不卷!~