新年伊始,开年热搜大戏“不知知网”正进行的如火如荼。趁着CNKI前所未有的热度,基因研究媛开始第一个系列介绍-公共数据库和大规模计划笔记,开篇介绍“TCGA蛋白质数据库TCPA”。
现在公众号世界里最火的“生信分析”数据库不是体量最大的GEO和SRA,而是TCGA。除了基因组数据,蛋白质组数据也是一个可用的肿瘤资源。TCPA数据库的介绍论文2013年发表在Nature Methods上,至今引用只有150多次。但仔细看引用情况,17年到18年引用了80多次,很多都在Nature cell biology、Cancer cell、Clinical cancer research、Science translational research这类高影响因子杂志上,值得在多组学数据集成分析时采用。
通过患者的基因组和转录组很难预测肿瘤蛋白质水平和功能,直接研究功能蛋白质组可以补充和扩展基因组、表观基因组和转录组学分析的信息,于是TCPA利用TCGA计划收集的肿瘤样本,采用反相蛋白质裂解物微阵列(RRPA)进行蛋白质组学分析,几乎涵盖了所有主要通路,包括PI3K, MAPK, mTOR, TGF-β, WNT, cell cycle, apoptosis, DNAdamage, Hippo and Notch通路。这种蛋白质组学技术也是近来很多大规模研究计划采用的。
TCPA的蛋白质组学数据分析与传统的TCGA基本一致,TCPA提供了三种分析:(1) correlation analysis:可以在不同肿瘤甚至不同组学数据间进行; (2) differential analysis:可以在两种不同类型肿瘤或者两种亚型肿瘤之间进行;(3) survival analysis:Cox proportional hazards model, log rank–test P values 以及 Kaplan-Meier plot。除了这三种方法,传统的heatmap(TCPA采用了一种next generation cluster heatmap方法)、network analysis、pathway enrichment analysis也是必不可少的。
示例:
图为各类肿瘤间HER2蛋白和mRNA表达的spearman相关性分析
总结:
TCPA提供了一套可以与TCGA相匹配的蛋白质组学数据,可以结合进行多组学分析,相关RRPA数据的一些分析如RBN analysis等需要根据不同需求进一步明确后进行。另外,一些TCGA Pan Cancer的数据分析思路值得借鉴使用到TCPA数据上来。
新年祝福,希望大家在“不知知网”时,也可以义正言辞的讲“知TCPA”鸭!(如需转载文章,请注明出处或在对应文章中留言联系作者,谢谢合作。)
参考文献:
1. LiJ, Lu Y, Akbani R, et al. TCPA: a resource for cancer functional proteomicsdata[J]. Nature methods, 2013, 10(11): 1046.
2. AkbaniR, Ng P K S, Werner H M J, et al. A pan-cancer proteomic perspective on TheCancer Genome Atlas[J]. Nature communications, 2014, 5: 3887.
3. Li J, Akbani R, Zhao W, et al. Explore,Visualize, and Analyze Functional Cancer Proteomic Data Using the CancerProteome Atlas[J]. Cancer research, 2017, 77(21): e51-e54.
领取专属 10元无门槛券
私享最新 技术干货