在第一期的GDSC数据总览中,我们根据数据库的模块进行总体的介绍。今天我们再深入了解GDSC所包含的数据及其获取的方法,也就是GDSC的数据下载模块。
GDSC数据下载的模块,分为4个模块,分别是ANOVA results、drug data、genetic features和bulk data。在分析中常用药物筛查IC50数据和多组学数据,故核心下载部分为bulk data。
在ANOVA结果下载页面,下方预览展示下载的内容(不同的列代表不同的项目,如药物ID、药物名、药物的别名、药物靶向的通路、药物的靶点和药物在pubmed中的ID),既可以下载pancancer的分析结果,也可以通过下拉菜单设置过滤条件下载特定的结果。但是在绝大部分情形下,我们主要是获取药敏信息IC50数据,结合基因组学信息,进行个性化的研究分析。
在药物数据下载页面,下方预览展示下载的内容(不同的列代表不同的项目,如药物ID、药物名、药物的别名、药物靶向的通路、药物的靶点和药物在pubmed中的ID),既可以下载pancancer的内容,也可以通过下拉菜单设置过滤条件下载特定的内容。
根据基因特征下载页面,可以下载不同细胞系中的突变特征。但是这里涉及到的基因突变特征较少,不建议从该页面下载基因突变特征。
bulk data是下载数据的核心界面,该页面提供了药物筛查试验的数据和细胞系基因组学数据。
(一)存贮于cell medel passport的多组学数据:
(二)存贮于GDSC1000资源的多组学数据 :
GDSC1000资源主要是来自文献A landscape of pharmacogenomic interactions in cancer [Iorio et al, Cell 2016] ,故这些数据的处理过程需要参考原文文献。参考此文献:
基于对文献的认识,能够明确GDSC1000资源[https://www.cancerrxgene.org/gdsc1000/GDSC1000_WebResources/Home.html]中存储的数据类型(注意区分肿瘤数据和细胞系数据):基因突变数据、拷贝数数据、甲基化数据、表达数据、药物筛查结果和多种数据类型的组合分析结果(如体细胞突变与拷贝数突变数据的组合)。
本小节主要向大家介绍了GDSC中存贮的bulk数据和GDSC1000数据的认识和下载,有助于大家更轻松获取目的数据。祝大家在肿瘤药敏数据库学习和使用的路上越走越远,越走越轻松。
[1]. Iorio, F., et al., A Landscape of Pharmacogenomic Interactions in Cancer. Cell, 2016. 166(3): p. 740-754.