专栏首页生信修炼手册使用cell ranger拆分10X单细胞转录组原始数据

使用cell ranger拆分10X单细胞转录组原始数据

欢迎关注”生信修炼手册”!

cell ranger是10X genomics公司提供的,专门用于分析10X 单细胞转录组数据的pipeline, 包含了原始数据拆分,表达定量,聚类分析等多个功能,本文主要介绍如何使用该软件来拆分原始数据。

直接从官网下载最新版的软件即可,网址如下

https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

该软件由多个子命令构成,通过mkfastq命令拆分数据,流程示意如下

有以下两种使用方式

cellranger mkfastq \
--id test \
--run run_directory \
--csv simple.csvcellranger mkfastq \
--id test \
--run  run_directory \
--samplesheet samplesheet.csv

id参数指定输出目录的名字,run参数指定下机的原始bcl文件所在的目录,该命令其实是对illumina提供的拆分数据的bcl2fastq命令的一个封装,需要样本名称,index等信息,支持两种格式,一种就是illlumina常规的samplesheet.csv文件,格式如下

另外一种是10X genomics定制的一种简化版的csv格式,内容如下

Lane,Sample,Index
1,test_sample,SI-GA-A3

只有3列,第一列指定lane ID, 第二列指定样本名称,第三列指定index的名称,10X genomics的每个index代表4条具体的oligo序列,示意如下

在根据index确定样本时,允许1到2个碱基的错配。在实际拆分数据时,更加推荐使用三列的CSV文件,因为samplesheet文件中需要根据不同版本的试剂盒修改对应的Reads信息。

V2试剂盒产生的文库结构如下所示

V3试剂盒产生的文库结构如下所示

和V2相比,V3试剂盒中所用的UMIPolyT的长度都发生了变化,从而导致测序得到的R1和R2端的序列长度也不一致,V2试剂盒的R1端长度为26bp, 包含16bp的barcode和10bp的UMI序列,V3试剂盒的R1端长度为28bp, 包含16bp的barcode和12bp的UMI序列;V2试剂盒的R2端为98bp, V3试剂盒的R2端为91bp。

如果使用samplesheet文件,需要调整[Reads]中的序列长度,而使用简化版的csv文件,cell ranger可以识别所用试剂盒版本,然后自动化的调整reads长度。 拆分好之后的目录结构如下所示

├── fastq_path
│   ├── H35KCBCXY
│   │   └── test_sample
│   │       ├── test_sample_S1_L001_I1_001.fastq.gz
│   │       ├── test_sample_S1_L001_R1_001.fastq.gz
│   │       └── test_sample_S1_L001_R2_001.fastq.gz

对于每个样本,除了常见的R1R2端序列,还多出来一个I1序列文件,该文件中保存的是index序列,示意如下

@D00547:905:H35KCBCXY:1:1101:19188:87078 1:N:0:AGATCGGG
AGATCGGG
+
.<<....<

后续的子命令也是通过这种特定的目录结构来进行分析,如果你有从其他地方下载的原始数据,也可以整理成这种目录结构,方便后续使用cell ranger进行分析。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用Clustal进行多序列比对

    多序列比对在保守区域鉴定,系统发育分析,motif识别等多个领域发挥重要作用,是生物信息数据分析必备的基础技能之一。Clustal是一款经典的多序列比对工具,支...

    生信修炼手册
  • kalign:适用于基因组规模的多序列比对工具

    之前提到的clustalo, muscle, mafft 适用于几千到几万条序列的多序列比对,在比较基因组学的分析中,需要对不同基因组的序列进行多序列比对。对于...

    生信修炼手册
  • 使用DREME挖掘序列中的de novo motif

    将contorl对应的序列集合称之为negative sequences, 将另一组称之positive sequences,采用费舍尔精确检验分析motif在...

    生信修炼手册
  • Pytest系列(16)- 分布式测试插件之pytest-xdist的详细使用

    https://www.cnblogs.com/poloyy/category/1690628.html

    小菠萝测试笔记
  • Leetcode【526、667、932】

    这道题是一道构造题,即构造一个长度为 N 的自然序列,满足整除关系: i % nums[i] = 0 或 nums[i] % i = 0(i 为第 i 个位置)...

    echobingo
  • pytest文档51-内置fixture之cache使用

    pytest 运行完用例之后会生成一个 .pytest_cache 的缓存文件夹,用于记录用例的ids和上一次失败的用例。 方便我们在运行用例的时候加上—lf ...

    上海-悠悠
  • Python Pytest中fixture之yield唤醒teardown和终结函数addfinalizer

    引入 我们之前学习的都是测试用例的前置固件,也就是相当于“setup”。说到这,细心的你可能想到了,那有没有什么方式可以表示出“teardown”?这就是我们今...

    橙子探索测试
  • Python自定义实现车牌生成

    从事车险行业的朋友,在日常测试过程中,需要各种车牌号码用于测试,如果在自动化测试过程中,则更需要去生成各种合规的车牌号码,

    苦叶子
  • Pytest自定义标记mark及指定文件/类/方法/用例执行

    pytest.main(['-s','test01.py','-m=test'])

    橙子探索测试
  • MFC控件GDI编程

    PolyLine这个函数.则是给一个数组. 这个数组里面保存着x y坐标. 然后它会遍历数组.以你给定的点来画线.

    IBinary

扫码关注云+社区

领取腾讯云代金券