首先,有些人比如我可能还不是很了解什么是pdx模型,让人工智能大模型帮我介绍一下。问kimi(https://kimi.moonshot.cn/):什么是pdx模型?
PDX 模型全称为病人来源肿瘤异种移植(Patient-derived tumor xenograft)模型,是将来源于患者的肿瘤组织或原代细胞植入免疫缺陷小鼠体内形成的移植瘤模型。 PDX模型的特点
PDX模型的应用
PDX模型的构建方法
PDX模型的局限性
PDX模型因其高度的临床相关性和对肿瘤异质性的保留,在癌症研究和治疗中具有重要价值,但也需要克服一些技术挑战。
也就是说,它将来自患者的癌细胞或组织移植到小鼠等动物宿主体内培养。这种模型的目的是更好地模拟人体内癌症的特性,以进行更真实、更有效的药物测试和研究。因此,取样时主要涉及的是人体内的肿瘤组织,但是同时也会有小鼠细胞混合,如果拿去做单细胞转录组建库测序,得到的测序数据里面就会有人、小鼠两个物种。
pdx模型的单细胞转录组如何分析上游定量,参考基因怎么选择呢?
在PDX模型的单细胞转录组分析中,上游定量和参考基因选择是关键步骤,以下是相关分析方法和建议: 1. 单细胞转录组上游定量分析 对于PDX模型的单细胞转录组数据,由于涉及人类和小鼠两种物种的基因表达,需要特别处理以区分人源和鼠源细胞,并准确定量基因表达。以下是分析流程: 数据比对与物种识别
数据提取与校正
基因表达谱构建
2. 参考基因的选择 参考基因的选择对于单细胞转录组分析至关重要,尤其是在PDX模型中,需要同时考虑人类和小鼠的基因。 物种特异性参考基因
ACTB
(β-actin)、GAPDH
(甘油醛-3-磷酸脱氢酶)、HPRT1
(次黄嘌呤磷酸核糖转移酶)等。Actb
、Gapdh
、Hprt1
等基因。同源基因处理
数据过滤与校正
3. 分析工具与软件
Cell Ranger
软件进行数据比对和定量,它支持多物种参考基因组的构建和分析。Seurat
等R包进行数据处理、降维、聚类和差异分析。通过以上方法,可以有效处理PDX模型的单细胞转录组数据,准确区分人源和鼠源细胞,并进行可靠的基因表达定量分析。
上面人工智能告诉我们,可能会有两种分析方法:
如 10x genomics官网非常便利的给我们提供了 人与小鼠的融合参考基因组(refdata-gex-GRCh38_and_GRCm39-2024-A.tar.gz),可以前往下载:
# https://www.10xgenomics.com/support/software/cell-ranger/downloads#reference-downloads
#wget "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2024-A.tar.gz"
#wget "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCm39-2024-A.tar.gz"
wget -c "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38_and_GRCm39-2024-A.tar.gz"
如 2020年5月发表在 Genome Medicine 上的文献《Single-cell RNA sequencing reveals the tumor microenvironment and facilitates strategic choices to circumvent treatment failure in a chemorefractory bladder cancer patient》中,分析策略就为分别对 人和小鼠进行比对,然后采用一个阈值方式来区分两个物种来源的细胞:
2023年10月发表在Cell Rep上的文献《Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer》中,则只是分析了人源的细胞。
使用来自 文献 Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer中的数据,下载地址为https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA016013,下载方式见文章:PDX小鼠模型的单细胞样品定量能选择人类参考基因组吗。
然后走cellranger的流程,拿到标准矩阵:10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元),拿到的结果,其中一个样本:
├── CRR727434
│ ├── barcodes.tsv.gz
│ ├── features.tsv.gz
│ └── matrix.mtx.gz
然后我们可以看一下 features.tsv文件,里面会有两种来源的基因,并用物种的前缀进行了区分:
# 人的基因,GRCh38开头,ENSG00000243485这种ID也可以区分出来
zless -S features.tsv.gz |head
GRCh38_ENSG00000243485 GRCh38_MIR1302-2HG Gene Expression
GRCh38_ENSG00000237613 GRCh38_FAM138A Gene Expression
GRCh38_ENSG00000186092 GRCh38_OR4F5 Gene Expression
GRCh38_ENSG00000238009 GRCh38_AL627309.1 Gene Expression
GRCh38_ENSG00000239945 GRCh38_AL627309.3 Gene Expression
GRCh38_ENSG00000239906 GRCh38_AL627309.2 Gene Expression
GRCh38_ENSG00000241860 GRCh38_AL627309.5 Gene Expression
GRCh38_ENSG00000241599 GRCh38_AL627309.4 Gene Expression
GRCh38_ENSG00000286448 GRCh38_AP006222.2 Gene Expression
GRCh38_ENSG00000236601 GRCh38_AL732372.1 Gene Expression
# 小鼠的基因,mm10开头,ENSMUSG00000096550这种ID带有小鼠物种MUS信息
zless -S features.tsv.gz |tail
mm10___ENSMUSG00000096550 mm10___Gm16367 Gene Expression
mm10___ENSMUSG00000094172 mm10___AC163611.1 Gene Expression
mm10___ENSMUSG00000094887 mm10___AC163611.2 Gene Expression
mm10___ENSMUSG00000091585 mm10___AC140365.1 Gene Expression
mm10___ENSMUSG00000095763 mm10___AC124606.2 Gene Expression
mm10___ENSMUSG00000095523 mm10___AC124606.1 Gene Expression
mm10___ENSMUSG00000095475 mm10___AC133095.2 Gene Expression
mm10___ENSMUSG00000094855 mm10___AC133095.1 Gene Expression
mm10___ENSMUSG00000095019 mm10___AC234645.1 Gene Expression
mm10___ENSMUSG00000095041 mm10___AC149090.1 Gene Expression
###
### Create: Jianming Zeng
### Date: 2023-12-31
### Email: jmzeng1314@163.com
### Blog: http://www.bio-info-trainee.com/
### Forum: http://www.biotrainee.com/thread-1376-1-1.html
### CAFS/SUSTC/Eli Lilly/University of Macau
### Update Log: 2023-12-31 First version
### Update Log: 2024-12-09 by juan zhang (492482942@qq.com)
###
rm(list=ls())
options(stringsAsFactors = F)
library(ggsci)
library(dplyr)
library(future)
library(Seurat)
library(clustree)
library(cowplot)
library(data.table)
library(ggplot2)
library(patchwork)
library(stringr)
library(qs)
library(Matrix)
getwd()
# 读取数据
dir='../inputs/'
samples=list.files( dir )
samples
[1] "CRR727434" "CRR727435" "CRR727436" "CRR727437" "CRR727438" "CRR727439"
sceList <- lapply(samples,function(pro){
# pro=samples[1]
print(pro)
counts <- Read10X(file.path(dir,pro ))
sce <- CreateSeuratObject(counts = counts , project = pro, min.cells = 5, min.features = 500 )
print(dim(sce))
return(sce)
})
names(sceList) <- samples
sceList[[1]]
as.data.frame(sceList[[1]]@assays$RNA$counts[1:10, 1:2])
as.data.frame(tail(sceList[[1]]@assays$RNA$counts[ , 1:2]))
可以看到数据中存在两种来源的基因:
## 提取出来小鼠来源的数据
sceList_mmu <- lapply(sceList,function(sce){
#sce = sceList[[1]]
ct = sce@assays$RNA$counts
kp=grepl('mm10---',rownames(ct)); table(kp)
ct = ct[kp,]
# 去掉前缀
rownames(ct) = gsub('mm10---','',rownames(ct))
ct[1:4,1:4]
sce = CreateSeuratObject( counts = ct, min.cells = 5, min.features = 500)
print(dim(sce))
return(sce)
})
sce.all_mmu <- merge(x=sceList_mmu[[1]], y=sceList_mmu[-1])
sce.all_mmu <- JoinLayers(sce.all_mmu) # seurat v5
sce.all_mmu
as.data.frame(sce.all_mmu@assays$RNA$counts[1:10, 1:2])
head(sce.all_mmu@meta.data, 10)
################################################################
## 提取出来人来源的数据
sceList_human <- lapply(sceList,function(sce){
#sce = sceList[[1]]
ct = sce@assays$RNA$counts
kp=grepl('GRCh38-',rownames(ct)); table(kp)
ct = ct[kp,]
# 去掉前缀
rownames(ct) = gsub('GRCh38-','',rownames(ct))
ct[1:4,1:4]
sce = CreateSeuratObject( counts = ct, min.cells = 5, min.features = 500)
print(dim(sce))
return(sce)
})
sce.all_human <- merge(x=sceList_human[[1]], y=sceList_human[-1])
sce.all_human <- JoinLayers(sce.all_human) # seurat v5
sce.all_human
as.data.frame(sce.all_human@assays$RNA$counts[1:10, 1:2])
head(sce.all_human@meta.data, 10)
这样我们就得到了两个物种来源的单细胞数据,后面可以分别进行降维聚类分群分析。下一期我们来看看这种混合模式的与分开各自参考基因对比分析的有何不一样~
还有一个疑问:这两种来源的细胞既然在同一个模型中,他们之间的相关性分析有研究做吗?