最近接到粉丝求助,他看到了一个很简单的肿瘤单基因数据挖掘文章:A TP53-associated gene signature for prediction of prognosis and therapeutic responses in lung squamous cell carcinoma提到了一个药物预测分析:
不知道如何理解,如何复现,如何应用到自己的数据。
我仔细看了看参考文献,这个就是我三年前介绍过的:使用CGP数据库的表达矩阵进行药物反应预测
发表这个算法的文章是:Clinical drug response can be predicted using baseline gene expression levels and in vitro drug sensitivity in cell lines 发表时间是:Genome Biology 2014 https://doi.org/10.1186/gb-2014-15-3-r47
作者选取了Cancer Genome Project (CGP) 数据库里面收录的 700多种细胞系的 138 种药物的作用情况,开发了用CGP数据库的表达矩阵进行药物反应预测算法,而且在 4 个符合要求的数据集里面验证了其算法的可靠性。算法概况起来就是5个步骤:
虽然说已经发表了文献,但是作为工具类文章,引用有点低的可怜:
pRRophetic包文献
发表的杂志是 PLoS One. 2014; 9(9): 提供了两个使用其R包的入口:
居然并没有bioconductor链接,很有可能是这么多年过去了,当年开发R包的人已经了无音讯了吧,也不可能是有人来维护它,我看了看包的介绍,重点就是一个pRRopheticPredict函数:
Thus, as a proof-of-concept we applied CGP derived models (using the pRRopheticPredict() function) to data from the Cancer Cell Line Encyclopedia (CCLE) for the MEK inhibitor PD0325901.
感兴趣的本科生或者研究生可以考虑,以这个为切入点,我不可能为一个粉丝提问,就解析这个包了,感觉这个工作量有点大!
如果大家感兴趣秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!
无独有偶,我最近在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,就看到了研究者通过508个食管癌病人的WGS数据,找到了22个显著突变基因,然后也关联到了药物信息,给他们的研究增添了色彩(凑图):
Here, we found that 77 out of 508 (15.2%) patients had at least one genomic alteration among the 40 targetable alterations in the curated precision oncology knowledge base (oncoKB) (Supplementary information, Fig. S5a).
Fig. S5a
OncoKB:由Memorial Sloan Kettering癌症中心(MSK)开发并维护的精准肿瘤学知识库。该知识库以体细胞突变为核心,收录突变对应靶向药的精准使用、突变在生物学与肿瘤学方面的影响以及突变在人群中的分布频率特征等信息。
把癌症有关的体细胞突变分成3类:
其实,就是一个数据库查询,并没有什么预测的事情。
需要大家自行阅读文献了,比如:《Epigenetic protein families: a new frontier for drug discovery》以及dbEM数据库,标题为:《dbEM A database of epigenetic modifiers curated from cancerous and normal genomes》,数据库网站链接为
dbEM数据库中收集了167个表观遗传相关蛋白,并按蛋白的染色体位置分类,同时统计各基因在不同肿瘤中的突变频率。此外还收集了54个药物(抑制剂),这些化合物能够帮助研究人员进行进一步的靶点验证和细胞信号通路的研究。
众所周知,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
但是TCGA数据库记录的病人信息里面关于药物的并不多,而且病人又不能随意做药物测试,所以仍然是需要细胞系或者类器官培养后的大量实验数据。