前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三

🤩 scRNA-seq | 吐血整理的单细胞入门教程(注释与初步过滤)(三

作者头像
生信漫卷
发布2022-10-31 17:18:27
2.7K0
发布2022-10-31 17:18:27
举报
文章被收录于专栏:R语言及实用科研软件

1写在前面

本期我们介绍一下如何处理rawdata,将Reads转为 Count Matrix。🤩

2参考基因组及注释

1️⃣ 目前,大多数scRNA-seq是使用人类或小鼠的组织、器官或细胞培养物进行的。常用的就是UCSChg19hg38mm10等),和GRCGRCh37GRCh38GRCm38)。

二者在主要染色体上是对等的(如hg38chr1 = GRCh38chr1),但在一些小的位点上会有细微差异。

基因组注释过程包括定义基因组转录区域,明确exonintron,将其分成protein coding, non-coding等。🤯

  • 举个栗子🌰
  • 假设我们有一个基因,包含5转录本组成的基因。其中3个编码(红色)和2个非编码(蓝色)。

Transcript and intron-exon structure of a typical eukaryotic gene

在实际操作中,我们通常可以下载GTFGFF3格式的文件进行注释。每个基因都含有一个ID,而这个ID是唯一的。🤗

Note! 这里也提醒大家在实际操作中,尽量使用ID进行分析操作,而不要使用symbol,当然在展示结果的时候你需要转换回symbol方便阅读。🤜🤛


2️⃣ 我们常用的人类小鼠基因组注释包括RefSeq, ENSEMBLGENCODE,实际应用中选择最新的版本就可以了,会有更多的已知基因👇。(这里就不做具体介绍了)

Sankey diagram of gene type changes in GENCODE versions

3Full-length scRNA-seq的处理

  • 处理方法与bulk RNA-seq类似。
  • Full length scRNA-seqraw data的处理通常分两步进行:比对(read alignment)和计数 (read counting)。
  • 常用软件:STARhisat2。
  • normalization方法:推荐使用TPM

4Droplet-based scRNA-seq的比对和定量

1️⃣ 首先我们要搞清楚scRNA-seq都有哪些产物。👇

  • cDNA片段 (识别转录本);
  • Cell barcode (CB,识别细胞);
  • Unique Molecular Identifier (UMI,减小PCR扩增带来的bias)。

2️⃣ 典型的scRNA-seqworkflow包括以下几个步骤:👇

  • cDNAmappingreference上;
  • 计算基因reads
  • 计算细胞reads(用到cell barcode);
  • 计算的RNA数量(UMI去重)。

5具体步骤

5.1 Read Mapping

处理10x Genomics Chromium scRNAseq数据,我们通常要用到Cell Ranger,具体原理我们在这里就不做具体介绍了,大家有兴趣去google一下吧。😂

这里只介绍一下外显子(exon)的定义,即reads比对到外显子50% 以上,就可以定义为外显子

Classification of aligned reads in Cell Ranger


5.2 Cell Ranger Reference

在选择Reference的时候,大家可以按以下table进行选择。👇

Cell Ranger Reference

Species

Assembly/Annotation

Genes before filtering

Genes after filtering

2020-A

human

GRCh38/GENCODE v32

60668

36601

2020-A

mouse

mm10/GENCODE vM23

55421

32285

3.0.0

human

GRCh38/Ensembl 93

58395

33538

3.0.0

human

hg19/Ensembl 87

57905

32738

3.0.0

mouse

mm10/Ensembl 93

54232

31053

2.1.0

mouse

mm10/Ensembl 84

47729

28692

1.2.0

human

GRCh38/Ensembl 84

60675

33694

1.2.0

human

hg19/Ensembl 82

57905

32738

1.2.0

mouse

mm10/Ensembl 84

47729

27998


5.3 UMI计数

  • 这里我们注意一下两点👇
  • 如果两组或更多的reads具有相同的barcodeUMI,但基因注释却不相同,那么reads最多的基因注释用于UMI计数,舍弃其他组。
  • 我们再极端一点,如果两组reads一样的话,这个时候我们可能需要舍弃所有组,因为这个时候基因注释已经不准确了。😤

5.4 细胞过滤

1️⃣ 未经过滤的raw data, feature-barcode matrix会包含很多空的 droplets,在矩阵中并不是0,因为会有来自破碎细胞RNA所以,这种数据我们需要进行过滤,而后再进行分析。🥳

2️⃣ 我们通常需要使用Cell Ranger 2.2Cell Ranger 3.0进行过滤。👇

Knee plots and empty drop cutoffs identified by the Cell Ranger 2.2 and 3.0 filtering algorithms

3️⃣ 举个栗子🌰

肿瘤样本通常包含大型肿瘤细胞与少量的肿瘤浸润淋巴细胞(TIL),如果你对TIL特别感兴趣,那这个时候可能就要用到EmptyDrops的方法来进行过滤了。

6其他方法

当你使用Cell Ranger时,你可能会觉得它不够快,这里我们介绍两个速度快准确度高的方法,STARsoloAlevin,这里不做具体介绍了,推荐大家选择STARsolo。🤒


最后祝大家早日不卷!~


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信漫卷 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1写在前面
  • 2参考基因组及注释
  • 3Full-length scRNA-seq的处理
  • 4Droplet-based scRNA-seq的比对和定量
  • 5具体步骤
    • 5.1 Read Mapping
      • 5.2 Cell Ranger Reference
        • 5.3 UMI计数
          • 5.4 细胞过滤
          • 6其他方法
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档