前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CPTAC蛋白质组学数据库中的海量资源

CPTAC蛋白质组学数据库中的海量资源

作者头像
科研菌
发布2020-07-02 16:06:48
4.9K0
发布2020-07-02 16:06:48
举报
文章被收录于专栏:科研菌科研菌科研菌

引言:蛋白质组是生命活动的物质基础,对蛋白质的研究能为疾病机制、治疗探究提供较基因组研究更加直接的证据。CPTAC(clinical proteomic tumor analysis consortium ,临床蛋白质组肿瘤分析协作组) 整合基因组和蛋白组的数据,为从蛋白质层面进行探究提供了丰富的资源。

一、CPTAC的发展历史

美国国家癌症研究所的临床蛋白质组学肿瘤分析协会(CPTAC)创建于2011年,最初仅含有结直肠癌、乳腺癌和卵巢癌的整合蛋白质组学数据,旨在通过应用大规模蛋白质组学和基因组分析或蛋白质组学来加速对癌症分子机制的了解(如识别蛋白质亚型、基因拷贝数变化与蛋白质丰度的关联、翻译后修饰的肿瘤相关通路)。

CPTAC由全国范围内的多中心组成(上图绿色字体对应的中心,如CPTAC附属的蛋白质组测序中心、蛋白质组学转化研究中心和蛋白质组学数据分析中心),通过各中心的协同努力,使得CPTAC逐渐涵盖更多肿瘤类型的蛋白质组学数据,以促进蛋白质组学应用于临床试验中的毒性和耐药性问题探的研究。好消息是,CPTAC的数据(基因组学,蛋白质组学,图像)、测定法和试剂作为社区资源向公众开放,以促进癌症研究与治疗进步。

二、蛋白质定量技术

CPTAC研究中用到的蛋白质定量技术,主要是基于质谱的检测技术,包括iTRAQ(Isobaric tags for relative and absolute quantification)和TMT(Tandem mass tags)。iTRAQ是由美国ABI研发的一种体外同种同位素标记的相对与绝对定量技术TMT(Tandem mass tags)则是由Thermo研发的多肽体外标记技术。两种技术都是采用4种或8种同位素编码的标签,通过特异性标记蛋白多肽N末端或赖氨酸侧链基团,而后进行串联质谱分析,可同时比较2~8种不同样品中蛋白质的相对含量或绝对含量。iTRAQ和TMT的原理都是等重标签标记,化学反应原理和用来定量的原理都是一致的,只是化学结构略有不同。示意图解读:例如在如下的iTRAQ试剂中,该分子主要有3部分组成:

  • 报告基团(左边):用于仪器检测/定量。
  • 连接基团(中间):用于连接两侧的基团,起平衡整个分子的作用
  • 反应基团(右边):用于与氨基酸N端及赖氨酸侧链氨基的结合。

如何做到等重标签标记呢?这主要通过平衡基团的连接作用实现,其连接左侧两侧的基团质量之和为一个常数,在4标中的质量之和为145Da,在8标中的质量之和为305Da。

例如在如下的4标质谱串联检测中,首先对4种不同来源的肽进行iTRAQ标记(标记分子的重量为145Da),然后进行混合进行质谱分析:第一次质谱分析,相同的肽因为标记分子质量相同而出现在同一个峰;接着分别取不同峰种的肽进行二次质谱分析,此时去掉平衡平衡基团的连接作用,不同来源的肽因为反应基因质量的不同而出现在不同的峰。基于以上步骤,从而实现不同来源肽的绝对和相对定量分析。在磷酸化蛋白质的定量中,富集磷酸化的多肽后仍然通过串联质谱实现磷酸化蛋白的定量分析。最后,便可以通过软件进行后续的分析。

三、CPTAC的海量数据

目前CPTAC含有51个研究的数据,含有12个类别的肿瘤类型,数据总量达24TB。这些研究中的参考质谱肽库也可以从NIST肽库中免费下载。想要研究的伙伴们是不是心动了。

1. 非源于TCGA样本的组学数据

CPTAC 包含了CPTAC收集的公开发表的蛋白质组学测序数据(proteomic sequence datasets)和对应的基因组学测序数据(genomic sequence datasets)。

2. 源于TCGA样本的组学数据

CPTAC还包括了一些源自TCGA项目的蛋白质组学数据,这一部分数据主要由TGCA标记,如下为部分研究汇总的截图展示(点击sample type进行肿瘤类型排序)。

点击任意感兴趣研究的概览界面,如下图为透明细胞肾肿瘤的研究概览,该页面提供了该研究的概览、基因组学与蛋白组学,以及临床样本的贮存位置。该研究与TCGA样本无关,含有全套的基因组学数据、转录组学数据、蛋白质组学数据等。根据界面描述,可以确定这是不是我们需要的数据。

而如下研究为来自TCGA样本的蛋白组学数据补充,关于这些样本的基因组学数据储存于TCGA数据库。

四、CPTAC数据下载

该网站提供1和2两种下载方式:

  • 1.使用 IBM Aspera FASP high-speed transfer protocol下载蛋白质组学定量数据和metadata(需要安装下载软件Aspera client,然后运行asperaconnect.exe)【推荐使用】,在勾选下方需要下载的文件后,点击右上角下载选择的文件(download selected),便能够自动通过asperaconnect.exe进行文件下载。下载的界面如下所示:
  • 2.使用标准的HTTP协议下载基因组学数据和蛋白质组学数据。也就是根据其提供的下载列表进行选择,通过网页直接下载。
  • 3.此外,对于来源于TCGA样本的蛋白质组学数据,可使用TCGA-Assembler 2.0 ,可参考https://github.com/compgenome365/TCGA-Assembler-2。TCGA-Assembler 2.0是基于R语言实现数据下载和处理(TCGA与CPTAC数据),需要R语言基础。

五、CPTAC相关的高分文章

基因蛋白组学的整合分析在高分生信分析中层出不穷,这也说明其意义重大。仅仅是基于基因组学、表观组学、转录组学的相关研究并不能完全有效的探究肿瘤进展机制和治疗策略,而结合肿瘤与配对正常组织的综合蛋白基因组学的分析能够进一步阐明驱动疾病表型的基因突变、阐明肿瘤病理生理学以探索个性化、精准临床治疗。

  • 例如关于肾透明细胞肿瘤的一篇文献中,研究者从基因→蛋白→疾病表型进行逐层探究,提出基因突变导致细胞基质的蛋白失调(1)。
  • 例如对159名HBV相关性肝细胞癌患者的肿瘤和配对邻近的肝组织进行蛋白质基因组学探究,确定在代谢重编程、微环境失调、细胞增殖和潜在治疗方法等方面具有独特特征的三个亚组(2)。
  • 例如在高级别浆液性卵巢肿瘤中,在TCGA数据的基础上整合基于质谱检测的蛋白质组数据,探究基因组学改变与蛋白组学变化的关系,探究与预后相关的蛋白(3)。

参考文献

  1. Clark DJ, Dhanasekaran SM, Petralia F, Pan J, Song X, Hu Y, et al. Integrated Proteogenomic Characterization of Clear Cell Renal Cell Carcinoma. CELL. [Journal Article; Research Support, N.I.H., Extramural]. 2019 2019-10-31;179(4):964-83.
  2. Gao Q, Zhu H, Dong L, Shi W, Chen R, Song Z, et al. Integrated Proteogenomic Characterization of HBV-Related Hepatocellular Carcinoma. CELL. 2019;179(2):561-77.
  3. Zhang H, Liu T, Zhang Z, Payne SH, Zhang B, McDermott JE, et al. Integrated Proteogenomic Characterization of Human High-Grade Serous Ovarian Cancer. CELL. [Journal Article; Research Support, N.I.H., Extramural]. 2016 2016-07-28;166(3):755-65.
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科研菌 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、CPTAC的发展历史
  • 二、蛋白质定量技术
  • 三、CPTAC的海量数据
    • 1. 非源于TCGA样本的组学数据
      • 2. 源于TCGA样本的组学数据
      • 四、CPTAC数据下载
      • 五、CPTAC相关的高分文章
      • 参考文献
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档