To serve as inputs for cellranger, FASTQ files should conform to the naming conventions of bcl2fastq and mkfastq:
[Sample Name]
S1_L00[Lane Number][Read Type]
_001.fastq.gz
Where Read Type
is one of:
I1
: Sample index read (optional)I2
: Sample index read (optional)R1
: Read 1R2
: Read 2也就是说,其实跑他们自己的 cellranger 流程,我们只需要准备r1和r2文件即可。即使是这样,也有很多人会准备错误,正常准备好了FASTQ文件后走cellranger的定量流程即可,代码我已经是多次分享了。参考:
差不多几个小时就可以完成全部的样品的cellranger的定量流程。但是很多时候,大家是 从公共数据库下载的10x技术单细胞转录组测序数据,而不是自己的测序仪产出的数据,就容易出现
比如:https://kb.10xgenomics.com/hc/en-us/articles/115003802691-How-do-I-prepare-Sequence-Read-Archive-SRA-data-from-NCBI-for-Cell-Ranger- ,需要注意的是使用参数--split-files
来替代--split-3
,就可以生成三个文件。
我们推荐的是对自己的准备好了的FASTQ文件跑一下fastqc软件,如下所示的就是命名错误啦 :
命名错误
首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;这个文件就是R1了,但是它有可能也是在100bp或者150bp里面,因为测序仪就是这样的规格,只能说浪费掉。。。。
然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;这个文件可有可无,就不关心它了。
最后35-132个cycle得到了98个碱基,就是转录本reads,也有可能是150bp长度的碱基啦,取决于测序仪规格,这个时候测序仪就充分利用了,不浪费。
也就是说大家看得到r1文件其实有可能是很小也有可能是跟r2差不多大小,这样的话就会给大家带来困扰,简单的肉眼看两个准备好了的FASTQ文件的碱基长度是不够的,还需要看质量。如下所示的r2文件被弄错了成为了r1,所以r1文件也会被弄错了成为了r2,如下所示:
所以r1文件也会被弄错了成为了r2
但是,我明明是给小伙伴们解释清楚了,但是仍然是有“好奇宝宝”不满意这个测序仪的浪费,认为明明是r1里面的碱基数量那么少,为什么要在150bp里面呢,希望自己切除它:
希望自己切除它
其实cellranger软件本身是有这个功能的, 完全没有必要自己提前处理r1的fq文件,不过呢,这个也确实是值得探索。参考:https://kb.10xgenomics.com/hc/en-us/articles/13179523030925-Why-do-I-have-an-alert-in-my-web-summary-with-Low-Fraction-of-Valid-UMIs-