导语
GUIDE ╲
亚细胞定位是蛋白质功能的一个主要的决定因素,细胞中的蛋白质复合物不断形成和分解,蛋白质在不同的亚细胞组分之间动态流动以执行其生物功能。
背景介绍
今天小编给大家介绍的是一个强大的基于质谱的分析pipeline,以生成蛋白质亚细胞定位的全蛋白质组视图,将蛋白质映射到 5 个细胞系的 12,418 个单个基因。基于超过 83,000 个独特的分类和相关分析,研究了选择性剪接和蛋白质结构域对定位、复杂成员共定位、细胞类型特异性定位以及生长因子抑制后蛋白质重新定位的影响。分析结果提供了有关蛋白质组空间组织的细胞结构和复杂性的信息,大多数蛋白质具有单一的主要亚细胞位置,选择性剪接很少影响亚细胞位置,并且细胞类型最好通过暴露于周围环境的蛋白质的表达来区分。作者将整个流程封装在R包SubCellBarCode中,接下来让我们一起来学习!
R包安装
if (!requireNamespace("BiocManager"))
install.packages("BiocManager")
BiocManager::install("SubCellBarCode")
library(SubCellBarCode)
功能介绍
01
数据准备
在这里使用公开可用的 HCC827(人肺腺癌细胞系)TMT10plex 标记的蛋白质组学数据集。
head(hcc827Ctrl)
marker proteins
head(markerProteins)
df <- loadData(protein.data = hcc827Ctrl)
cat(dim(df))
head(df)
set.seed(2)
##随机选择一部分数据进行下游分析
df <- df[sample(nrow(df), 6000),]
02
计算覆盖的marker蛋白
标记蛋白 (3365) 和输入的data.frame之间的overlap通过条形图计算和可视化(建议每个marker蛋白的覆盖率至少为20%)。
c.prots <- calculateCoveredProtein(proteinIDs = rownames(df),
markerproteins = markerProteins[,1])
#Overall Coverage of marker proteins : 0.58
03
marker蛋白的质量控制
为避免降低分类准确性,通过两步质量控制过滤掉具有噪声量化的标记蛋白和不代表其相关compartment的标记蛋白。
每个细胞系的 A 和 B 重复之间person相关性小于 0.8 的marker蛋白被过滤掉(图A)。使用 Pearson 和 Spearman 相关性计算 5CL marker谱与每种蛋白质的输入数据(分别为 A 和 B 重复实验)之间的成对相关性。 然后使用每种方法的最低值进行过滤,cutoff分别设置为 0.8 和 0.6,以排除非代表性merker蛋白(图 B)。
r.markers <- markerQualityControl(coveredProteins = c.prots,protein.data = df)
去除非marker蛋白后,可以重新计算和可视化标记蛋白的最终覆盖率。
04
marker蛋白的t-SNE可视化
marker蛋白的空间分布在 t-SNE 图中可视化
set.seed(6)
tsne.map <- tsneVisualization(protein.data = df,
markerProteins = r.markers,
dims = 3,
theta = c(0.1),
perplexity = c(60))
#二维可视化
set.seed(9)
tsne.map2 <- tsneVisualization(protein.data = df,
markerProteins = r.markers,
dims = 2,
theta = c(0.5),
perplexity = c(60))
建立模型和分类蛋白质
调整参数后,SVM 模型预测(分类)输入数据中所有蛋白质的亚细胞定位,以及 A 和 B 重复分类的相应概率。
set.seed(4)
cls <- svmClassification(markerProteins = r.markers,
protein.data = df,
markerprot.df = markerProteins)
#测试
test.A <- cls[[1]]$svm.test.prob.out
test.B <- cls[[2]]$svm.test.prob.out
head(test.A)
#预测
all.A <- cls[[1]]$all.prot.pred
all.B <- cls[[2]]$all.prot.pred
#估计隔间级别的分类阈值
t.c.df <- computeThresholdCompartment(test.repA = test.A, test.repB = test.B)
#将阈值应用于隔间级别分类
c.cls.df <- applyThresholdCompartment(all.repA = all.A, all.repB = all.B,
threshold.df = t.c.df)
#估计邻域级别的分类阈值
t.n.df <- computeThresholdNeighborhood(test.repA = test.A, test.repB = test.B)
#将阈值应用于邻域级别分类
n.cls.df <- applyThresholdNeighborhood(all.repA = all.A, all.repB = all.B,
threshold.df = t.n.df)
#合并隔间和邻域分类
cls.df <- mergeCls(compartmentCls = c.cls.df, neighborhoodCls = n.cls.df)
05
SubCellBarCode plot
绘制 SubCellBarCode 需要 PSM(肽谱匹配)count表。
head(hcc827CtrlPSMCount)
plotBarcode(sampleClassification = cls.df, protein = "NLRP4",
s1PSM = hcc827CtrlPSMCount)
06
Co-localization plot
在评估蛋白质的共定位、蛋白质复合物形成和区室化蛋白质水平调节时,这种分析可能会有所帮助。
proteasome26s <- c("PSMA7", "PSMC3","PSMA4", "PSMB4",
"PSMB6", "PSMB5", "PSMC2","PSMC4",
"PSMB3", "PSMA6","PSMC5","PSMC6")
plotMultipleProtein(sampleClassification = cls.df, proteinList = proteasome26s)
07
差异定位分析
蛋白质定位的调节是细胞信号传导的关键过程。SubCellBarCode 方法可用于在两种条件下进行差异定位分析,例如对照与治疗、癌细胞与正常细胞、细胞状态 A 与细胞状态 B 等。
识别差异定位蛋白
head(hcc827GEFClass)
sankeyPlot(sampleCls1 = cls.df, sampleCls2 = hcc827GEFClass)
Filter Candidates
candidate.df <- candidateRelocatedProteins(sampleCls1 = cls.df,
s1PSM = hcc827CtrlPSMCount,
s1Quant = hcc827Ctrl,
sampleCls2 = hcc827GEFClass,
s2PSM = hcc827GefPSMCount,
s2Quant = hcc827GEF,
min.psm = 2,
pearson.cor = 0.8)
小编总结
作者将基于质谱的蛋白质组学方法以及亚细胞分离手段结合,使用细胞分离结合深度定量质谱进行蛋白质亚细胞定位的全面研究,建立了一套基于质谱的方法来探究蛋白质组水平的亚细胞定位。小伙伴们可以安装SubCellBarCode自己进行尝试哦!