本文将联系原推文 单细胞实战(五) 理解cellranger count的结果 对我们上一部分获得的cellranger定量结果文件进行解读
我的结果:
web_summary.html文档
打开时就能对数据进行一个判断,网页顶端颜色显示为黄色或者红色说明数据存在异常
看看我的,数据质量有点差,怎么回事
糟糕,从小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码)项目copy脚本的时候参考基因组忘记从小鼠改为人了:
修改脚本重新定量
使用正确的参考基因组后:
定量结果解读
参考资料:
cell ranger结果详细解读 https://zhuanlan.zhihu.com/p/390516422 Cellranger count 中网页结果说明 https://www.jianshu.com/p/5d8b87f4bd0e 一步一步着手做生信分析 https://zhuanlan.zhihu.com/p/55119222 一文带你读懂 10X Cellranger Count 网页结果解析
这里有一个提示信息,说当前默认包含了内含子reads
Recommendation on Including Introns for Gene Expression Analysis https://support.10xgenomics.com/docs/intron-mode-rec
最新版的cellranger已经默认保留了匹配到内含子上的reads
关于这一点,曾老师在本专辑上期推文已经把帮我做出了补充
是的,不同版本的cellranger软件对10x技术单细胞定量结果可以相差5倍以上
在官网F&Q部分也记录了关于这一新功能常见问题的回答和示例数据集:
对样本中的细胞和表达的基因个数评估,同时还给出了barcode, index, umi, RNA reads不同序列的Q30
Estimated number of cells - 样本测到的细胞数
Mean reads per cell - 每个细胞测到的平均reads
Median genes per cell - 每个细胞基因数的中位数
read1测的是16bp barcode和10 bp UMI的碱基序列(对于V2试剂),read2测的是cDNA的碱基序列:
Number of Reads :整个样本测到的中的reads数目
Valid Barcodes :UMI校正后匹配的Barcodes比例
Valid UMIs :UMI校正后匹配的UMI比例
Sequencing Saturation :测序饱和度,一般60-80%比较合适,如果测到的细胞数多,但是每个细胞里面的平均reads数少,那么饱和度就不高(感觉我这个就这样),反之,饱和度高
Q30 Bases in Barcode :基于barcode的质量分数,大于30的比率
Q30 Bases in RNA Read :基于RNA reads的质量分数,大于30的比率
Q30 Bases in UMI :基于UMI的质量分数,大于30的比率
Q30 常被用作测序质量的评价指标 在测序FASTQ文件中,第四行往往是一串字符组合,每一个字符代表一个碱基的质量评分 二代测序质量控制(FastQC) https://zhuanlan.zhihu.com/p/360551606?utm_id=0 测序知识小结 https://zhuanlan.zhihu.com/p/367092952?utm_id=0
统计reads的比对比例
Reads Mapped to Genome:比对到选定基因组的reads比例
Reads Mapped Confidently to Genome:仅仅比对到基因组的reads,如果一条reads既可以比对到外显子区又可以比对到非外显子区,那么算比对到了其中一个外显子区
Reads Mapped Confidently to Intergenic Regions:比对到基因组的基因间区域
Reads Mapped Confidently to Intronic Regions:比对到内含子区域
Reads Mapped Confidently to Exonic Regions:比对到外显子区域
Reads mapped confidently to transcriptome:比对到转录组的reads,这些读数可以用来UMI的计数
Reads mapped antisense to gene:比对到基因的相反的reads
细胞数目评估信息
通过barcode上的UMI标签分布来评估细胞数目,Y轴是map到每个barcode的UMI的计数数值,X轴是与细胞计数数值对应的barcode的数量,蓝色代表细胞,灰色代表背景。
在前期磁珠(bead)与细胞形成油包水的结构过程中,会存在没有把细胞包进去的情况,这时候的油包水结构里面就只有磁珠和一些barcode的序列,而cDNA的碱基序列一般都是barcode碱基序列的 10倍以上 ,就是由此来确定哪些是真实的细胞,哪些是background。
如果这个曲线出现一个明显徒降的趋势,这表明与细胞相关的barcode和空白的barcoddee区分的很好。
其他参数:
Estimated Number of Cells:样本测到的细胞数
Fraction Reads in Cells:过滤后细胞reads数占总reads数(含背景)的百分比,一般要在70%及以上,否则数据质量就不好;其实反映的是测序数据的利用率。可能是由于样品中的高背景RNA污染引起的。这种环境RNA来自样品中的裂解/死细胞。也有可能是样本包含大量只具有少量RNA的细胞构成的,导致细胞识别产生错误。
Mean Reads per Cell:每个细胞测到的平均reads
Median UMI Counts per Cell:细胞UMI数量的中位值
Median Genes per Cell:每个细胞的基因中位数
Total Genes Detected:测到的总基因数,至少有一条UMI
Sample ID:样本ID
Sample Description:样本的描述信息
Chemistry:使用的10X试剂盒版本(V2或V3试剂盒)
Reference Path:参考基因组路径
Transcriptome:参考基因组版本信息
Pipeline Version:Cellranger软件的版本信息
Sequencing Saturation
Sequencing Saturation | 33.7% |
---|
参考这篇文章 一文带你读懂 10X Cellranger Count 网页结果解析 我想手动计算一下sequencing saturation,记录一下遇到的问题
对reads抽样,观察不同抽样条件下检测到的转录本数量占检测到的所有转录本的比例;如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,覆盖到的转录本数目也不会变化太多。 在数据准确有效的情况下,每检测到一种独特的reads,该项目的reads类型计数增加1,N_reads表示该项目共检测到了N种独特的reads。n_deduped_reads表示在N种独特的reads之中,有n种reads仅被检测到了1次。测序饱和度是指至少被检测到2次的reads占比,也就是1 - (n_deduped_reads / N_reads)。
# Sequencing Saturation = 1 - (n_deduped_reads / n_reads)
# n_deduped_reads = Number of unique (valid cell-barcode, valid UMI, gene) combinations among confidently mapped reads. 准确比对的reads中唯一(有效barcode+有效UMI+基因)组合的数量
samtools view pbmc_1k_v3_possorted_genome_bam.bam | grep 'xf:i:25' | wc -l
# n_reads = Total number of confidently mapped, valid cell-barcode, valid UMI reads. unique_confidently_mapped_reads + duplicate_reads.准确比对的reads中所有(有效barcode+有效UMI+基因)组合的数量
samtools flagstat pbmc_1k_v3_possorted_genome_bam.bam # duplicate_reads获取
(我个人不是很懂为什么grep 'xf:i:25'就拿到了唯一reads,有知道的老师可以在评论区告诉我 Q1)
根据文章作者给的公式计算,如果grep 'xf:i:25'就拿到了唯一reads,那么sequencing saturation为50%
如果根据后面使用 samtools flagstat
得到的汇总信息,duplicates得到的为非唯一reads,那么sequencing saturation为25%
都不为33.7%,所以这里我还是没太弄清楚,也希望有知道的老师可以在评论区告诉我 Q2
> 1 - (12435096 / 24451006)
[1] 0.491428
> 6328497 / 24451006
[1] 0.2588236
我个人怀疑是因为 samtools flagstat
得到的汇总信息这里的duplicates 6328497条,是经过unique的,比如(A、A、B、B、B)这里只保留了(A、B),所以百分比下降了
Median Genes per Cell
对reads抽样,观察不同测序数据量情况下检测到的基因数目的分布;如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,检测到的基因数目也不会变化太多