前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >单细胞免疫组库基础介绍

单细胞免疫组库基础介绍

作者头像
生信技能树jimmy
发布2022-11-24 11:04:56
1.3K0
发布2022-11-24 11:04:56
举报
文章被收录于专栏:单细胞天地单细胞天地

分享是一种态度

免疫系统

免疫系统中主要包含两类淋巴细胞:B lymphocytes (B cells) 和 T lymphocytes (T cells)。B cells 和 T cells 的区别在于表达的 antigen receptor 的结构(structure),分别是B-cell receptor (BCR) 和 T-cell receptor (TCR)。

BCR:由两条重链(IgH)和两条轻链(Igκ,Igλ)组成。

TCR:由α、β两条肽链组成。BCR的重链包含1个可变区域(VH)和3个恒定区域(CH1/CH2/CH3),轻链包含1个可变区域(VL)和1个恒定区域(CL)。TCR的α、β两条肽链也包含可变区V和恒定区C。

可变区域(VH/VL)由三个互补决定区(complementarities determining region, CDR) CDR1、CDR2、 CDR3 和间隔的 4 个骨架区(framework region, FR)构成 。CDR1、 CDR2 和 FR 区域相对保守, CDR3 变异最大,并直接决定了 BCR/TCR 的抗原结合特异性。BCR/TCR 的 CDR3 由 V、 D、 J 三个基因编码,淋巴细胞的成熟过程中,通过 V、 D、 J 基因的重排形成了各种重组序列片段,由于 V、 D、 J 基因片段本身具有多样性,再加上体细胞突变、 V(D) J 区之间碱基的插入删除(Indel)等形成了 T/B 细胞的多样性。因此对于淋巴细胞多样性的研究便集中在了 CDR3 区多样性的研究。

基础知识理解

免疫组库:V(D)J序列多样性的集合即为免疫组库(Immune Repertoire, IR)

免疫组库测序目标:5‘转录组+V(D)J片段分析,可同时获得单细胞转录组以及免疫组库数据。(V(D)J区段在mRNA的5‘端)

V(D)J的区段的长度:通常是650bp左右。PE-150测序最多能测300bp。

V(D)J 基因的 Reads 比对:Reads 富集前,先使用 cutadapt 对 Read-pairs 去接头和引物序列。随后将 Read-pairs 比对到 V(D)J 基因片段上,只有比对上的 read 用于后续的组装。其中 read 比对要求:比对得分超过 20;至少有 15bp 能够精确匹配到参考序列。

Contig:一致性序列组装得到的contigs序列。组装的过程中,每个 barcode 是独立进行分析的。对过滤后的 read 按照 barcode 分组,其中每个 barcode 至多有 100k 的 reads 用于组装,避免人为因素影响导致的极高覆盖度情况。且仅使用有多于 10 个 reads 的 UMI 的 read 用于组装,最后获得 contigs 序列。

组装后的有效细胞数:有效的细胞数的估计与表达靶向 V(D)J 转录本相关,要求 barcode 有一个 contig 能够有至少 2 个具有足够 reads 支持的 UMI。

contigs注释:使用 Smith-Waterman 将每个细胞中每个组装的 congtigs 与所有的参考序列(V , D, J, C 和 5'UTR )逐一进行比对。

contigs有效性评价

  1. 完全跨越 V 和 J 部分,否则为无效 “None”;
  2. 在预定的 V 位置包含可识别的起始密码子。如果没有找到起始密码子,则认为是无效的 “False”;
  3. 在 V 起始密码子框内包含一个 CDR3 区域。如果没有发现 CDR3,则被认为是无效的;
  4. 在 V - J 跨越区不含终止密码子。如果发现终止密码子,则被认为是无效的。理想情况下,每个 Barcode 包含两个匹配的有效的 contigs,由 1 个 TRA 和 1 个 TRB 或 1 个重链( IGH)和 1 个轻链( IGK 或 IGL)构成。

Clonotypes克隆型:通过精确的核苷酸匹配,把拥有完全相同的有效 CDR3 核酸序列的 Cell barcodes 组合在一起, 成为克隆型。

clonotype的丰度:细胞支持数(barcode个数)即为clonotype丰度。

consensus 序列:所有细胞中拥有相同的有效 CDR3 核酸序列的 contig 组装在一起的最终序列,被称为共有序列。即把某个 clonotype 的所有 contig 组装在一起得到的序列成为 consensus 序列

克隆型的多样性:克隆型中的 V-J 基因组合方式的多样性就是克隆型的多样性。

cellranger mkvdjref

VDJ的参考基因组需要使用 cellranger mkvdjref重新构建。

代码语言:javascript
复制
$ tree /opt/genome/refdata-gex-GRCh38-2020-A/
/opt/genome/refdata-gex-GRCh38-2020-A/
├── fasta
│   ├── genome.fa
│   └── genome.fa.fai
├── genes
│   └── genes.gtf
├── pickle
│   └── genes.pickle
├── reference.json
└── star
    ├── chrLength.txt
    ├── chrNameLength.txt
    ├── chrName.txt
    ├── chrStart.txt
    ├── exonGeTrInfo.tab
    ├── exonInfo.tab
    ├── geneInfo.tab
    ├── Genome
    ├── genomeParameters.txt
    ├── SA
    ├── SAindex
    ├── sjdbInfo.txt
    ├── sjdbList.fromGTF.out.tab
    ├── sjdbList.out.tab
    └── transcriptInfo.tab
代码语言:javascript
复制
$ cellranger mkvdjref --genome GRCh38_release95 --fasta /path/genome/Homo_sapiens/GRCh38_release95/Homo_sapiens.GRCh38_release95.genome.fa --genes Homo_sapiens.GRCh38.95.gtf
$ tree
.
└── GRCh38_release95
    ├── fasta
    │   └── regions.fa
    └── reference.json
    
$head GRCh38_release95/fasta/regions.fa
>1|IGHE ENST00000390541|IGHE|C-REGION|IG|IGH|E|00
GCCTCCACACAGAGCCCATCCGTCTTCCCCTTGACCCGCTGCTGCAAAAACATTCCCTCCAATGCCACCTCCGTGACTCTGGGCTGCCTGGCCACGGGCTACTTCCCGGAGCCGGTGATGGTGACCTGGGACACAGGCTCCCTCAACGGGACAACTATGACCTTACCAGCCACCACCCTCACGCTCTCTGGTCACTATGCCACCATCAGCTTGCTGACCGTCTCGGGTGCGTGGGCCAAGCAGATGTTCACCTGCCGTGTGGCACACACTCCATCGTCCACAGACTGGGTCGACAACAAAACCTTCAGCGTCTGCTCCAGGGACTTCACCCCGCCCACCGTGAAGATCTTACAGTCGTCCTGCGACGGCGGCGGGCACTTCCCCCCGACCATCCAGCTCCTGTGCCTCGTCTCTGGGTACACCCCAGGGACTATCAACATCACCTGGCTGGAGGACGGGCAGGTCATGGACGTGGACTTGTCCACCGCCTCTACCACGCAGGAGGGTGAGCTGGCCTCCACACAAAGCGAGCTCACCCTCAGCCAGAAGCACTGGCTGTCAGACCGCACCTACACCTGCCAGGTCACCTATCAAGGTCACACCTTTGAGGACAGCACCAAGAAGTGTGCAGATTCCAACCCGAGAGGGGTGAGCGCCTACCTAAGCCGGCCCAGCCCGTTCGACCTGTTCATCCGCAAGTCGCCCACGATCACCTGTCTGGTGGTGGACCTGGCACCCAGCAAGGGGACCGTGAACCTGACCTGGTCCCGGGCCAGTGGGAAGCCTGTGAACCACTCCACCAGAAAGGAGGAGAAGCAGCGCAATGGCACGTTAACCGTCACGTCCACCCTGCCGGTGGGCACCCGAGACTGGATCGAGGGGGAGACCTACCAGTGCAGGGTGACCCACCCCCACCTGCCCAGGGCCCTCATGCGGTCCACGACCAAGACCAGCGGCCCGCGTGCTGCCCCGGAAGTCTATGCGTTTGCGACGCCGGAGTGGCCGGGGAGCCGGGACAAGCGCACCCTCGCCTGCCTGATCCAGAACTTCATGCCTGAGGACATCTCGGTGCAGTGGCTGCACAACGAGGTGCAGCTCCCGGACGCCCGGCACAGCACGACGCAGCCCCGCAAGACCAAGGGCTCCGGCTTCTTCGTCTTCAGCCGCCTGGAGGTGACCAGGGCCGAATGGGAGCAGAAAGATGAGTTCATCTGCCGTGCAGTCCATGAGGCAGCAAGCCCCTCACAGACCGTCCAGCGAGCGGTGTCTGTAAATCCCGGTAAA
>2|TRBV28 ENST00000390400|TRBV28|L-REGION+V-REGION|TR|TRB|None|00
ATGGGAATCAGGCTCCTCTGTCGTGTGGCCTTTTGTTTCCTGGCTGTAGGCCTCGTAGATGTGAAAGTAACCCAGAGCTCGAGATATCTAGTCAAAAGGACGGGAGAGAAAGTTTTTCTGGAATGTGTCCAGGATATGGACCATGAAAATATGTTCTGGTATCGACAAGACCCAGGTCTGGGGCTACGGCTGATCTATTTCTCATATGATGTTAAAATGAAAGAAAAAGGAGATATTCCTGAGGGGTACAGTGTCTCTAGAGAGAAGAAGGAGCGCTTCTCCCTGATTCTGGAGTCCGCCAGCACCAACCAGACATCTATGTACCTCTGTGCCAGCAGTTTATG
>3|IGHD4-4 ENST00000414852|IGHD4-4|D-REGION|IG|IGH|None|00
TGACTACAGTAACTAC
>4|IGHV4-39 ENST00000390619|IGHV4-39|L-REGION+V-REGION|IG|IGH|None|00
ATGGATCTCATGTGCAAGAAAATGAAGCACCTGTGGTTCTTCCTCCTGCTGGTGGCGGCTCCCAGATGGGTCCTGTCCCAGCTGCAGCTGCAGGAGTCGGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCACTGTCTCTGGTGGCTCCATCAGCAGTAGTAGTTACTACTGGGGCTGGATCCGCCAGCCCCCAGGGAAGGGGCTGGAGTGGATTGGGAGTATCTATTATAGTGGGAGCACCTACTACAACCCGTCCCTCAAGAGTCGAGTCACCATATCCGTAGACACGTCCAAGAACCAGTTCTCCCTGAAGCTGAGCTCTGTGACCGCCGCAGACACGGCTGTGTATTACTGTGCGAGA
>5|TRAV1-1 ENST00000542354|TRAV1-1|L-REGION+V-REGION|TR|TRA|None|00
ATGTGGGGAGCTTTCCTTCTCTATGTTTCCATGAAGATGGGAGGCACTGCAGGACAAAGCCTTGAGCAGCCCTCTGAAGTGACAGCTGTGGAAGGAGCCATTGTCCAGATAAACTGCACGTACCAGACATCTGGGTTTTATGGGCTGTCCTGGTACCAGCAACATGATGGCGGAGCACCCACATTTCTTTCTTACAATGCTCTGGATGGTTTGGAGGAGACAGGTCGTTTTTCTTCATTCCTTAGTCGCTCTGATAGTTATGGTTACCTCCTTCTACAGGAGCTCCAGATGAAAGACTCTGCCTCTTACTTCTGCGCTGTGAGAGA

cellranger vdj

BCR的fastq数据格式如下。包含I1,I2,R1,R2四个文件。

代码语言:javascript
复制
$ ll data/sc5p_v2_hs_PBMC_10k_b_fastqs/
total 4355360
-rw-r--r-- 1 156607322 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_I1_001.fastq.gz
-rw-r--r-- 1 182936492 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_I2_001.fastq.gz
-rw-r--r-- 1 386947795 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_R1_001.fastq.gz
-rw-r--r-- 1 944440175 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L001_R2_001.fastq.gz
-rw-r--r-- 1 157303860 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_I1_001.fastq.gz
-rw-r--r-- 1 182417776 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_I2_001.fastq.gz
-rw-r--r-- 1 386954157 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_R1_001.fastq.gz
-rw-r--r-- 1 939676846 Jul 11 00:34 sc5p_v2_hs_PBMC_10k_b_S1_L002_R2_001.fastq.gz
代码语言:javascript
复制
$  cellranger vdj --id=sc5p_v2_hs_PBMC_10k_b_fastqs --fastqs=/path/VDJ/data/sc5p_v2_hs_PBMC_10k_b_fastqs/ --reference=/path/vdjref/GRCh38_release95/

结果目录

all_contig* :所有contig相关的文件

consensus*:一致性序列相关的文件

filtered_contig *:过滤后的contig相关的文件

clonotypes.csv:克隆型相关信息

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 免疫系统
  • 基础知识理解
  • cellranger mkvdjref
  • cellranger vdj
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档