引言:蛋白质组是生命活动的物质基础,对蛋白质的研究能为疾病机制、治疗探究提供较基因组研究更加直接的证据。CPTAC(clinical proteomic tumor analysis consortium ,临床蛋白质组肿瘤分析协作组) 整合基因组和蛋白组的数据,为从蛋白质层面进行探究提供了丰富的资源。
美国国家癌症研究所的临床蛋白质组学肿瘤分析协会(CPTAC)创建于2011年,最初仅含有结直肠癌、乳腺癌和卵巢癌的整合蛋白质组学数据,旨在通过应用大规模蛋白质组学和基因组分析或蛋白质组学来加速对癌症分子机制的了解(如识别蛋白质亚型、基因拷贝数变化与蛋白质丰度的关联、翻译后修饰的肿瘤相关通路)。
CPTAC由全国范围内的多中心组成(上图绿色字体对应的中心,如CPTAC附属的蛋白质组测序中心、蛋白质组学转化研究中心和蛋白质组学数据分析中心),通过各中心的协同努力,使得CPTAC逐渐涵盖更多肿瘤类型的蛋白质组学数据,以促进蛋白质组学应用于临床试验中的毒性和耐药性问题探的研究。好消息是,CPTAC的数据(基因组学,蛋白质组学,图像)、测定法和试剂作为社区资源向公众开放,以促进癌症研究与治疗进步。
CPTAC研究中用到的蛋白质定量技术,主要是基于质谱的检测技术,包括iTRAQ(Isobaric tags for relative and absolute quantification)和TMT(Tandem mass tags)。iTRAQ是由美国ABI研发的一种体外同种同位素标记的相对与绝对定量技术,TMT(Tandem mass tags)则是由Thermo研发的多肽体外标记技术。两种技术都是采用4种或8种同位素编码的标签,通过特异性标记蛋白多肽N末端或赖氨酸侧链基团,而后进行串联质谱分析,可同时比较2~8种不同样品中蛋白质的相对含量或绝对含量。iTRAQ和TMT的原理都是等重标签标记,化学反应原理和用来定量的原理都是一致的,只是化学结构略有不同。示意图解读:例如在如下的iTRAQ试剂中,该分子主要有3部分组成:
如何做到等重标签标记呢?这主要通过平衡基团的连接作用实现,其连接左侧两侧的基团质量之和为一个常数,在4标中的质量之和为145Da,在8标中的质量之和为305Da。
例如在如下的4标质谱串联检测中,首先对4种不同来源的肽进行iTRAQ标记(标记分子的重量为145Da),然后进行混合进行质谱分析:第一次质谱分析,相同的肽因为标记分子质量相同而出现在同一个峰;接着分别取不同峰种的肽进行二次质谱分析,此时去掉平衡平衡基团的连接作用,不同来源的肽因为反应基因质量的不同而出现在不同的峰。基于以上步骤,从而实现不同来源肽的绝对和相对定量分析。在磷酸化蛋白质的定量中,富集磷酸化的多肽后仍然通过串联质谱实现磷酸化蛋白的定量分析。最后,便可以通过软件进行后续的分析。
目前CPTAC含有51个研究的数据,含有12个类别的肿瘤类型,数据总量达24TB。这些研究中的参考质谱肽库也可以从NIST肽库中免费下载。想要研究的伙伴们是不是心动了。
CPTAC 包含了CPTAC收集的公开发表的蛋白质组学测序数据(proteomic sequence datasets)和对应的基因组学测序数据(genomic sequence datasets)。
CPTAC还包括了一些源自TCGA项目的蛋白质组学数据,这一部分数据主要由TGCA标记,如下为部分研究汇总的截图展示(点击sample type进行肿瘤类型排序)。
点击任意感兴趣研究的概览界面,如下图为透明细胞肾肿瘤的研究概览,该页面提供了该研究的概览、基因组学与蛋白组学,以及临床样本的贮存位置。该研究与TCGA样本无关,含有全套的基因组学数据、转录组学数据、蛋白质组学数据等。根据界面描述,可以确定这是不是我们需要的数据。
而如下研究为来自TCGA样本的蛋白组学数据补充,关于这些样本的基因组学数据储存于TCGA数据库。
该网站提供1和2两种下载方式:
基因蛋白组学的整合分析在高分生信分析中层出不穷,这也说明其意义重大。仅仅是基于基因组学、表观组学、转录组学的相关研究并不能完全有效的探究肿瘤进展机制和治疗策略,而结合肿瘤与配对正常组织的综合蛋白基因组学的分析能够进一步阐明驱动疾病表型的基因突变、阐明肿瘤病理生理学以探索个性化、精准临床治疗。