肿瘤药敏多组学数据库(GDSC)的数据介绍和获取

百味科研芝士

发布于 2020-07-06 16:11:39

10.1K0

文章被收录于专栏：百味科研芝士百味科研芝士

在第一期的GDSC数据总览中，我们根据数据库的模块进行总体的介绍。今天我们再深入了解GDSC所包含的数据及其获取的方法，也就是GDSC的数据下载模块。

GDSC数据下载的模块，分为4个模块，分别是ANOVA results、drug data、genetic features和bulk data。在分析中常用药物筛查IC50数据和多组学数据，故核心下载部分为bulk data。

1.ANOVA结果下载

在ANOVA结果下载页面，下方预览展示下载的内容（不同的列代表不同的项目，如药物ID、药物名、药物的别名、药物靶向的通路、药物的靶点和药物在pubmed中的ID），既可以下载pancancer的分析结果，也可以通过下拉菜单设置过滤条件下载特定的结果。但是在绝大部分情形下，我们主要是获取药敏信息IC50数据，结合基因组学信息，进行个性化的研究分析。

2. 药物数据下载

在药物数据下载页面，下方预览展示下载的内容（不同的列代表不同的项目，如药物ID、药物名、药物的别名、药物靶向的通路、药物的靶点和药物在pubmed中的ID），既可以下载pancancer的内容，也可以通过下拉菜单设置过滤条件下载特定的内容。

3. 基因特征下载

根据基因特征下载页面，可以下载不同细胞系中的突变特征。但是这里涉及到的基因突变特征较少，不建议从该页面下载基因突变特征。

4. bulk data下载

bulk data是下载数据的核心界面，该页面提供了药物筛查试验的数据和细胞系基因组学数据。

GDSC储存了细胞系的药物敏感性数据： 包括药物-细胞系反应的原始数据和IC50数据（半抑制浓度，凋亡细胞与全部细胞数之比等于50%时所对应的药物浓度，反应细胞对药物的耐受程度。IC50值越低，则说明细胞对药物越敏感）。在后续的探究中，最常见的做法就是下载药物-细胞系的IC50数据。
GDSC储存了细胞系基因组学数据: 包括全外显子测序、转录组测序、芯片测序（人类肿瘤细胞系1000）、拷贝数变异、DNA甲基化、融合数据等原始及部分处理过的数据。点击对应的链接，将会跳转至数据贮存的页面。

（一）存贮于cell medel passport的多组学数据：

也就是突变数据和拷贝数下载的链接Download from Cell Model Passport。
通过该页面便可以下载处理后的基因组学数据，包括突变数据、表达数据、拷贝数数据、融合数据和CRISPR KO data（探究肿瘤的基因依赖性）。
突变数据和拷贝数原始数据存贮在EGA(European Genome-phenome Archive),但是下载原始数据需要权限才能进行下载。WTSI CGP Data access committee数据获取委员会负责数据的获取，如果需要下载原始数据进行探究的小伙伴可以通过网页提供的联系方式进行访问。

（二）存贮于GDSC1000资源的多组学数据 ：

GDSC1000资源主要是来自文献A landscape of pharmacogenomic interactions in cancer [Iorio et al, Cell 2016] ，故这些数据的处理过程需要参考原文文献。参考此文献：

（A）基于11289个来自患者肿瘤识别到的CFEs（癌症功能事件：肿瘤基因的突变、拷贝数变异和甲基化事件）；
（B）结合1001个来自COSMIC中的人肿瘤细胞系基因组学数据；
（C）筛选出人肿瘤细胞系中的CFEs；
（D）对人肿瘤细胞系进行265个药物的敏感性筛查试验；
（E）最后使用3种不同的分析方法探索CFEs对药敏敏感性的预测作用。
- （E1）ANOVA分析单个CFE对药物敏感性的预测作用；
- （E2）logic模型探索提高药物敏感性预测性能的组合CFEs；
- （E3）机器模型评估不同数据类型（基因突变、拷贝数变异、甲基化和基因表达数据）对药物敏感性变异的解释程度。

基于对文献的认识，能够明确GDSC1000资源[https://www.cancerrxgene.org/gdsc1000/GDSC1000_WebResources/Home.html]中存储的数据类型（注意区分肿瘤数据和细胞系数据）：基因突变数据、拷贝数数据、甲基化数据、表达数据、药物筛查结果和多种数据类型的组合分析结果（如体细胞突变与拷贝数突变数据的组合）。