cell_group_name cnv_name state chr start end
malignant_MGH36.malignant_MGH36_s1 chr1-region_2 2 chr1 3696784 144612683
malignant_MGH36.malignant_MGH36_s1 chr1-region_4 4 chr1 151336778 156213123
malignant_MGH36.malignant_MGH36_s1 chr3-region_7 4 chr3 3168600 10285427
malignant_MGH36.malignant_MGH36_s1 chr3-region_9 4 chr3 45429998 49460186
malignant_MGH36.malignant_MGH36_s1 chr4-region_11 2 chr4 53179 187134610
malignant_MGH36.malignant_MGH36_s1 chr5-region_13 4 chr5 134181370 177037348
默认情况下,推断CNV在整个样本水平上运行,例如从单个患者中提取的某种细胞类型的所有细胞。这是推断CNV的最快方法,但往往不是最优方法,因为给定的肿瘤样本可能有具有不同CNV模式的亚群。 通过设置infercnv::run(analysis mode='subclusters"),infercnv将尝试将细胞分成具有一致的CNV模式的组。CNV预测(通过HMM)然后将在子聚类而不是整个样本的水平上执行。
在统计学上,CopyKAT将贝叶斯方法与层次聚类相结合,计算单个细胞的基因组拷贝数分布,并从高通量单细胞转录组数据中定义克隆子结构。
首先,单细胞转录组数据的Unique Molecular Identifier(UMI)的基因表达矩阵作为CopyKAT的输入,通过它们的基因组坐标对它们进行排序,并对基因的排列进行注释。之后,用Freeman-Tukey变换来稳定方差,然后采用多项式动态线性建模矫正单细胞UMI计数矩阵中的异常值。
下一步是建立一个高可信度的正常二倍体细胞子集,用来推测正常二倍体细胞的拷贝数基线值。为此,研究人员将所有单细胞集中到几个小的亚群分类中,并使用高斯混合模型估算每个分类的方差。通过严格的分类标准,具有最小估计方差的聚类被定义为“标准的二倍体细胞”。
为了检测染色体断点,他们整合泊松-伽玛模型和马尔可夫链蒙特卡罗迭代生成每个基因窗口的后验均值,然后应用Kolmogorov-Smirnov检验对均值无显著差异的相邻窗口进行合并,然后计算每个窗口的最终拷贝数值,以此作为跨越每个细胞中相邻染色体断点的所有基因的后验平均值。
然后对单细胞拷贝数数据进行分层聚类,以确定非整倍体肿瘤细胞和二倍体基质细胞之间的最大距离。最后,根据聚类信息识别克隆亚群,并计算代表亚克隆基因型的共表达谱,进一步分析其基因表达的差异。
并非所有癌症类型都具有可用于区分正常细胞和肿瘤细胞的非整倍体拷贝数事件。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。