前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SubCellBarCode方法--识别蛋白的亚定位!

SubCellBarCode方法--识别蛋白的亚定位!

作者头像
作图丫
发布2022-03-29 10:51:38
4960
发布2022-03-29 10:51:38
举报
文章被收录于专栏:作图丫

导语

GUIDE ╲

亚细胞定位是蛋白质功能的一个主要的决定因素,细胞中的蛋白质复合物不断形成和分解,蛋白质在不同的亚细胞组分之间动态流动以执行其生物功能。

背景介绍

今天小编给大家介绍的是一个强大的基于质谱的分析pipeline,以生成蛋白质亚细胞定位的全蛋白质组视图,将蛋白质映射到 5 个细胞系的 12,418 个单个基因。基于超过 83,000 个独特的分类和相关分析,研究了选择性剪接和蛋白质结构域对定位、复杂成员共定位、细胞类型特异性定位以及生长因子抑制后蛋白质重新定位的影响。分析结果提供了有关蛋白质组空间组织的细胞结构和复杂性的信息,大多数蛋白质具有单一的主要亚细胞位置,选择性剪接很少影响亚细胞位置,并且细胞类型最好通过暴露于周围环境的蛋白质的表达来区分。作者将整个流程封装在R包SubCellBarCode中,接下来让我们一起来学习!

R包安装

代码语言:javascript
复制
if (!requireNamespace("BiocManager"))
    install.packages("BiocManager")
BiocManager::install("SubCellBarCode")
library(SubCellBarCode)

功能介绍

01

数据准备

在这里使用公开可用的 HCC827(人肺腺癌细胞系)TMT10plex 标记的蛋白质组学数据集。

代码语言:javascript
复制
head(hcc827Ctrl)

marker proteins

代码语言:javascript
复制
head(markerProteins)
代码语言:javascript
复制
df <- loadData(protein.data = hcc827Ctrl)
cat(dim(df))
head(df)
set.seed(2)
##随机选择一部分数据进行下游分析
df <- df[sample(nrow(df), 6000),]

02

计算覆盖的marker蛋白

标记蛋白 (3365) 和输入的data.frame之间的overlap通过条形图计算和可视化(建议每个marker蛋白的覆盖率至少为20%)。

代码语言:javascript
复制
c.prots <- calculateCoveredProtein(proteinIDs = rownames(df), 
                                   markerproteins = markerProteins[,1]) 
#Overall Coverage of marker proteins :  0.58

03

marker蛋白的质量控制

为避免降低分类准确性,通过两步质量控制过滤掉具有噪声量化的标记蛋白和不代表其相关compartment的标记蛋白。

每个细胞系的 A 和 B 重复之间person相关性小于 0.8 的marker蛋白被过滤掉(图A)。使用 Pearson 和 Spearman 相关性计算 5CL marker谱与每种蛋白质的输入数据(分别为 A 和 B 重复实验)之间的成对相关性。 然后使用每种方法的最低值进行过滤,cutoff分别设置为 0.8 和 0.6,以排除非代表性merker蛋白(图 B)。

代码语言:javascript
复制
r.markers <- markerQualityControl(coveredProteins = c.prots,protein.data = df)

去除非marker蛋白后,可以重新计算和可视化标记蛋白的最终覆盖率。

04

marker蛋白的t-SNE可视化

marker蛋白的空间分布在 t-SNE 图中可视化

代码语言:javascript
复制
set.seed(6)
tsne.map <- tsneVisualization(protein.data = df, 
                              markerProteins = r.markers, 
                              dims = 3, 
                              theta = c(0.1), 
                              perplexity = c(60)) 
代码语言:javascript
复制
#二维可视化
set.seed(9)
tsne.map2 <- tsneVisualization(protein.data = df, 
                    markerProteins = r.markers, 
                    dims = 2, 
                    theta = c(0.5), 
                    perplexity = c(60))

建立模型和分类蛋白质

调整参数后,SVM 模型预测(分类)输入数据中所有蛋白质的亚细胞定位,以及 A 和 B 重复分类的相应概率。

代码语言:javascript
复制
set.seed(4)
cls <- svmClassification(markerProteins = r.markers, 
                                    protein.data = df, 
                                    markerprot.df = markerProteins)
#测试
test.A <- cls[[1]]$svm.test.prob.out
test.B <- cls[[2]]$svm.test.prob.out
head(test.A)
#预测
all.A <- cls[[1]]$all.prot.pred
all.B <- cls[[2]]$all.prot.pred
代码语言:javascript
复制
#估计隔间级别的分类阈值
t.c.df <- computeThresholdCompartment(test.repA = test.A, test.repB = test.B)
#将阈值应用于隔间级别分类
c.cls.df <- applyThresholdCompartment(all.repA = all.A, all.repB = all.B,
                                    threshold.df = t.c.df)
#估计邻域级别的分类阈值
t.n.df <- computeThresholdNeighborhood(test.repA = test.A, test.repB = test.B)
#将阈值应用于邻域级别分类
n.cls.df <- applyThresholdNeighborhood(all.repA = all.A, all.repB = all.B, 
                                    threshold.df = t.n.df)
#合并隔间和邻域分类
cls.df <- mergeCls(compartmentCls = c.cls.df, neighborhoodCls = n.cls.df)

05

SubCellBarCode plot

绘制 SubCellBarCode 需要 PSM(肽谱匹配)count表。

代码语言:javascript
复制
head(hcc827CtrlPSMCount)
代码语言:javascript
复制
plotBarcode(sampleClassification = cls.df, protein = "NLRP4",
        s1PSM = hcc827CtrlPSMCount)

06

Co-localization plot

在评估蛋白质的共定位、蛋白质复合物形成和区室化蛋白质水平调节时,这种分析可能会有所帮助。

代码语言:javascript
复制
proteasome26s <- c("PSMA7", "PSMC3","PSMA4", "PSMB4", 
                   "PSMB6", "PSMB5", "PSMC2","PSMC4",
                   "PSMB3", "PSMA6","PSMC5","PSMC6")

plotMultipleProtein(sampleClassification = cls.df, proteinList = proteasome26s)

07

差异定位分析

蛋白质定位的调节是细胞信号传导的关键过程。SubCellBarCode 方法可用于在两种条件下进行差异定位分析,例如对照与治疗、癌细胞与正常细胞、细胞状态 A 与细胞状态 B 等。

识别差异定位蛋白

代码语言:javascript
复制
head(hcc827GEFClass)
sankeyPlot(sampleCls1 = cls.df, sampleCls2 = hcc827GEFClass)

Filter Candidates

代码语言:javascript
复制
candidate.df <- candidateRelocatedProteins(sampleCls1 = cls.df, 
                                s1PSM = hcc827CtrlPSMCount, 
                                s1Quant = hcc827Ctrl,
                                sampleCls2 = hcc827GEFClass,
                                s2PSM = hcc827GefPSMCount,
                                s2Quant = hcc827GEF,
                                min.psm = 2,
                                pearson.cor = 0.8)

小编总结

作者将基于质谱的蛋白质组学方法以及亚细胞分离手段结合,使用细胞分离结合深度定量质谱进行蛋白质亚细胞定位的全面研究,建立了一套基于质谱的方法来探究蛋白质组水平的亚细胞定位。小伙伴们可以安装SubCellBarCode自己进行尝试哦!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作图丫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档