专栏首页生物信息学、python、R、linuxregularized negative binomial regression对单细胞数据进行标准化

regularized negative binomial regression对单细胞数据进行标准化

由于技术因素,scRNA-seq数据可能由于每个细胞中检测到的分子数量不同导致细胞与细胞间的差异。为了解决区分生物学异质性与技术造成的差异,本文提出正则化负二项分布中的皮尔逊残差(其中细胞测序深度用作广义线性模型中的协变量)在保留生物异质性的同时成功地消除了测序深度的影响。 文章原文:https://link.springer.com/article/10.1186/s13059-019-1874-1

Downstream analyses of Pearson residuals are unaffected by differences in sequencing depth. a UMAP embedding of the 33,148 cell PBMC dataset using either log-normalization or Pearson residuals. Both normalization schemes lead to similar results with respect to the major and minor cell populations in the dataset. However, in analyses of log-normalized data, cells within a cluster are ordered along a gradient that is correlated with sequencing depth. b Within the four major cell types, the percent of variance explained by sequencing depth under both normalization schemes. c UMAP embedding of two groups of biologically identical CD14+ monocytes, where one group was randomly downsampled to 50% depth. d Results of differential expression (DE) test between the two groups shown in c. Gray areas indicate expected group mean difference by chance and a false discovery rate cutoff of 1%. e Results of DE test between CD14+ and CD16+ monocytes, before and after randomly downsampling the CD16+ cells to 20% depth. 上图两种数据是模拟测序深度减半的两种数据,即红色和青色细胞,从中我们可以看到A中log-normalization的数据,测序深度的影响没有去除,而皮尔森残差则消除了这个影响,同时,从两种数据的差异基因及由测序深度导致的方差也能看出,用皮尔森残差效果更好。

因此,用Seurat进行单细胞数据分析的时候,可以选择SCTransform进行标准化。使用方法可参考:https://www.jieandze1314.com/post/cnposts/scrna-sctransform/

欢迎关注~

参考: https://www.jieandze1314.com/post/cnposts/scrna-sctransform/ https://satijalab.org/seurat/v3.0/integration.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 寻找差异的feature

    在生物学上,经常会遇到找control和treat的差异基因或者任意两个或者两个以上处理条件下,最差异的变化,比如我有这样一个数据,几千个细胞分为处理过的和没处...

    生信编程日常
  • RSeQC判断链特异性(strand-specific)

    对于strand-specific的RNA-seq而言,我们必须得知道它是哪一种建库方式,才能进行后续的定量分析。

    生信编程日常
  • 通路富集与超几何分布

    超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。 需要注意...

    生信编程日常
  • 机器学习公平概念的适用性(CS LG)

    基于ML的预测系统越来越多地用于支持对个人生活产生重大影响的决策,例如大学录取,工作聘用,儿童监护,犯罪风险评估等。结果,公平性成为保证该预测性的重要要求。系统...

    小童
  • Disentangled的假设的探讨

    Francesco Locatello, Stefan Bauer, Mario Lucic, Sylvain Gelly, Bernhard Schölkop...

    用户1908973
  • DAY24:阅读SIMT架构

    GPUS Lady
  • 模拟电站中的联合数据治理(CS CY)

    灵活的电力网络通过ICT系统不断协调和优化运营。覆盖数据网格传达有关电网状态以及家庭和工业中电力需求和生产状态的信息。因此,数据是影响电力成本和电网资产可用性的...

    小童
  • 运动检测器:从一系列LiDAR点云中学习与类无关的场景动态(CS RO)

    在复杂的城市环境中,目标检测和运动参数估计是自动驾驶车辆安全导航的关键任务。 在这项工作中,我们提出了一种新颖的实时时态上下文聚合方法,用于基于3D点云序列的运...

    时代在召唤
  • 人群密度估计--Crowd Counting Via Scale-adaptive Convolutional Nerual Network

    Crowd Counting Via Scale-adaptive Convolutional Nerual Network https://arxiv....

    用户1148525
  • [计算机视觉论文速递] 2018-03-05

    通知:这篇推文有16篇论文速递信息,涉及目标检测、图像分割、风格迁移和GAN等方向。 [1]《Hashing with Mutual Information》 ...

    Amusi

扫码关注云+社区

领取腾讯云代金券