新年伊始,开年热搜大戏“不知知网”直线剧情又添新料。趁着CNKI热度未散,基因研究媛麻溜介绍“公共数据库和大规模计划笔记”系列第八篇“肿瘤细胞系CCLE数据库与MCLP计划”。
1. CCLE数据库
癌症细胞系百科全书(CCLE)包含了来源于947个人癌细胞系的基因表达,染色体拷贝数和大规模平行测序数据。当与479种细胞系中的24种抗癌药物的药理学特征相结合时,该数据集可以用于鉴定基于遗传、谱系和基因表达的药物敏感性预测因子。
目前,包括TCGA等大型肿瘤测序计划中,很多研究都采用了CCLE细胞系的数据,可以说是肿瘤研究必不可少的公开数据之一。大量注释细胞系可能有助于实现抗癌药物的临床前分层。通过在临床前环境中对可能产生的药物反应进行遗传预测,并将其纳入癌症临床试验设计可以加速“个性化”治疗方案的出现。
“The Cancer Cell Line Encyclopedia enables predictive modeling of anticancer drugsensitivity”这篇文章本身的数据分析可做为CCLE很好的应用范例:利用CCLE细胞系的测序数据和药物敏感性数据,通过朴素贝叶斯(naive Bayes, NB)分类器或弹性网回归算法(elastic net regression algorithm)进行药物敏感性预测,同时也发现了浆细胞谱系与对IGF1受体抑制剂的敏感性相关; AHR表达与NRAS突变体系中的MEK抑制剂功效相关;和SLFN11表达预测对拓扑异构酶抑制剂的敏感性。
上图为利用弹性网对250个细胞系的基因组信息和伊立替康敏感性进行的相关性分析
2. MCLP Data Portal
MCLP Data Portal属于TCGA计划的一部分,利用RPPA谱对肿瘤细胞系进行分析(网站:http://tcpaportal.org/mclp/),该组学方法也用于TCPA计划。
这套数据是利用CCLE、COSMIC、Genentech三套细胞系数据集成起来,将蛋白质组学数据和DNA、RNA和药物数据,构建成一个集细胞系和蛋白质组学数据的药物蛋白质组数据集。
以PDL1为检索词进行检索,检索结果见下图:
A图:MCLP网站的检索字段情况,分析包括药物、蛋白和变异,可视化包括热图和网络图;
B图:头颈部和肺部肿瘤PDL1蛋白表达高于子宫肿瘤;
C图:利用Protein-protein相关性模型发现PDL1表达与CD49B呈正相关;
D图:CCDC50细胞系变异组和野生组PDL1蛋白的差异表达;
E图:pyrazolanthrone敏感性;
F图:PDL1与交互蛋白的PPI共表达网络;
G图:RRPA数据的动态热图。
总结:
CCLE和MCLP两套数据都是细胞系药物敏感性数据集,一套是基因组学、一套是蛋白质组学,都被很多组学研究用于验证或做药物敏感性预测,在肿瘤组学研究中经常采用。
新年祝福,希望大家在“不知知网”时,也可以义正言辞的讲“知CCLE和MCLP”鸭!(如需转载文章,请注明出处或在对应文章中留言联系作者,谢谢合作。)
参考文献:
1. BarretinaJ, Caponigro G, Stransky N, et al. The Cancer Cell Line Encyclopedia enables predictivemodelling of anticancer drug sensitivity[J]. Nature, 2012, 483(7391): 603.
2. LiJ, Zhao W, Akbani R, et al. Characterization of human cancer cell lines byreverse-phase protein arrays[J]. Cancer Cell, 2017, 31(2): 225-239.
3. Ben-David U, Siranosian B, Ha G, et al.Genetic and transcriptional evolution alters cancer cell line drug response[J].Nature, 2018, 560(7718): 325.
领取专属 10元无门槛券
私享最新 技术干货