开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

scRNA-seq

共 13 篇文章

1

🤩 scRNA-seq | 吐血整理的单细胞入门教程（从原理到代码实操）（二）

2

🤩 scRNA-seq | 吐血整理的单细胞入门教程（从原理到代码实操）（一）

3

🤩 scRNA-seq | 吐血整理的单细胞入门教程（注释与初步过滤）（三

4

🤩 scRNA-seq | 吐血整理的单细胞入门教程（数据格式和处理）（四）

5

🤩 scRNA-seq | 吐血整理的单细胞入门教程（基础可视化）（五）

6

🤩 scRNA-seq | 吐血整理的单细胞入门教程（ID转换）（六）

7

🤩 scRNA-seq | 吐血整理的单细胞入门教程（质控与过滤）（七）

8

🤩 scRNA-seq | 吐血整理的单细胞入门教程（初步降维及可视化）（八）

9

🤩 scRNA-seq | 吐血整理的单细胞入门教程（PCA的影响因素）（九）

10

🤩 scRNA-seq | 吐血整理的单细胞入门教程（初步Normalization）（十）

11

🤩 scRNA-seq | 吐血整理的单细胞入门教程（Normalization的影响因素）（十一）

12

🤩 scRNA-seq | 吐血整理的单细胞入门教程（共识聚类）（十二）

13

🤩 scRNA-seq | 吐血整理的单细胞入门教程（差异分析）（十三）

清单首页scRNA-seq文章详情

清单「scRNA-seq」 03/13

🤩 scRNA-seq | 吐血整理的单细胞入门教程（注释与初步过滤）（三

1写在前面

本期我们介绍一下如何处理rawdata，将Reads转为 Count Matrix。🤩

2参考基因组及注释

1️⃣ 目前，大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSC（hg19、hg38、mm10等），和GRC（GRCh37、GRCh38、GRCm38）。

二者在主要染色体上是对等的（如hg38的chr1 = GRCh38的chr1），但在一些小的位点上会有细微差异。

基因组注释过程包括定义基因组的转录区域，明确exon和intron，将其分成protein coding, non-coding等。🤯

举个栗子🌰
假设我们有一个基因，包含5个转录本组成的基因。其中3个编码（红色）和2个非编码（蓝色）。

Transcript and intron-exon structure of a typical eukaryotic gene

在实际操作中，我们通常可以下载GTF或GFF3格式的文件进行注释。每个基因都含有一个ID，而这个ID是唯一的。🤗

Note! 这里也提醒大家在实际操作中，尽量使用ID进行分析操作，而不要使用symbol，当然在展示结果的时候你需要转换回symbol方便阅读。🤜🤛

2️⃣ 我们常用的人类和小鼠基因组注释包括RefSeq, ENSEMBL和GENCODE，实际应用中选择最新的版本就可以了，会有更多的已知基因👇。（这里就不做具体介绍了）

Sankey diagram of gene type changes in GENCODE versions

3Full-length scRNA-seq的处理

处理方法与bulk RNA-seq类似。
Full length scRNA-seq的raw data的处理通常分两步进行：比对(read alignment)和计数 (read counting)。
常用软件：STAR和hisat2。
normalization方法：推荐使用TPM。

4Droplet-based scRNA-seq的比对和定量

1️⃣ 首先我们要搞清楚scRNA-seq都有哪些产物。👇

cDNA片段 (识别转录本)；
Cell barcode (CB，识别细胞)；
Unique Molecular Identifier (UMI，减小PCR扩增带来的bias)。

2️⃣ 典型的scRNA-seq的workflow包括以下几个步骤：👇

将cDNAmapping到reference上；
计算基因reads；
计算细胞reads（用到cell barcode）；
计算的RNA数量（UMI去重）。

5具体步骤

5.1 Read Mapping

处理10x Genomics Chromium scRNAseq数据，我们通常要用到Cell Ranger，具体原理我们在这里就不做具体介绍了，大家有兴趣去google一下吧。😂

这里只介绍一下外显子(exon)的定义，即reads比对到外显子的 50% 以上，就可以定义为外显子。

Classification of aligned reads in Cell Ranger

5.2 Cell Ranger Reference

在选择Reference的时候，大家可以按以下table进行选择。👇

Cell Ranger Reference	Species	Assembly/Annotation	Genes before filtering	Genes after filtering
2020-A	human	GRCh38/GENCODE v32	60668	36601
2020-A	mouse	mm10/GENCODE vM23	55421	32285
3.0.0	human	GRCh38/Ensembl 93	58395	33538
3.0.0	human	hg19/Ensembl 87	57905	32738
3.0.0	mouse	mm10/Ensembl 93	54232	31053
2.1.0	mouse	mm10/Ensembl 84	47729	28692
1.2.0	human	GRCh38/Ensembl 84	60675	33694
1.2.0	human	hg19/Ensembl 82	57905	32738
1.2.0	mouse	mm10/Ensembl 84	47729	27998

5.3 UMI计数

这里我们注意一下两点👇：
如果两组或更多的reads具有相同的barcode和UMI，但基因注释却不相同，那么reads最多的基因注释用于UMI计数，舍弃其他组。
我们再极端一点，如果两组reads一样的话，这个时候我们可能需要舍弃所有组，因为这个时候基因注释已经不准确了。😤

5.4 细胞过滤

1️⃣ 未经过滤的raw data, feature-barcode matrix会包含很多空的 droplets，在矩阵中并不是0，因为会有来自破碎细胞的RNA。所以，这种数据我们需要进行过滤，而后再进行分析。🥳

2️⃣ 我们通常需要使用Cell Ranger 2.2和Cell Ranger 3.0进行过滤。👇

Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms

3️⃣ 举个栗子🌰

肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞（TIL），如果你对TIL特别感兴趣，那这个时候可能就要用到EmptyDrops的方法来进行过滤了。

6其他方法

当你使用Cell Ranger时，你可能会觉得它不够快，这里我们介绍两个速度快、准确度高的方法，STARsolo和Alevin，这里不做具体介绍了，推荐大家选择STARsolo。🤒

最后祝大家早日不卷!~

举报