使用ESTIMATE来对转录组表达数据根据stromal和immune细胞比例估算肿瘤纯度

文章发表于 (2013). "Inferring tumour purity and stromal and immune cell admixture from expression data." Nature Communications doi:10.1038/ncomms3612.

ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data) is a tool for predicting tumor purity, and the presence of infiltrating stromal/immune cells in tumor tissues using gene expression data. ESTIMATE algorithm is based on single sample Gene Set Enrichment Analysis and generates three scores:

  • 1) stromal score (that captures the presence of stroma in tumor tissue),
  • 2) immune score (that represents the infiltration of immune cells in tumor tissue), and
  • 3) estimate score (that infers tumor purity).

预先处理了所有的TCGA数据

只需要根据每个样本的表达矩阵来计算3个得分,The website presents the scores for all TCGA tumor types.

在其网站上面可以直接下载整个分析结果哦

R语言包

安装如下:

library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)
library(estimate)
help(package="estimate")

运行R包自带的测试数据

library(estimate)
OvarianCancerExpr <- system.file("extdata", "sample_input.txt",
                                 package="estimate")
read.table(OvarianCancerExpr)[1:4,1:4]
filterCommonGenes(input.f=OvarianCancerExpr, 
                  output.f="OV_10412genes.gct", 
                  id="GeneSymbol")
estimateScore(input.ds = "OV_10412genes.gct",
              output.ds="OV_estimate_score.gct", 
              platform="affymetrix")
plotPurity(scores="OV_estimate_score.gct", samples="s516", 
           platform="affymetrix")
scores=read.table("OV_estimate_score.gct",skip = 2,header = T)
rownames(scores)=scores[,1]
scores=t(scores[,3:ncol(scores)])
scores

可以看到很简单的代码,首先把txt文档里面的表达矩阵读入R里面转为gct格式,然后对gct格式的input表达矩阵使用estimateScore得到计算好的3个score值并且保存到本地文件。值如下:

     StromalScore ImmuneScore ESTIMATEScore TumorPurity
s516   -281.81487    171.5411     -110.2737   0.8316075
s518   -426.14692    105.3890     -320.7580   0.8483668
s519    -57.14977   -365.2374     -422.3871   0.8561698
s520   1938.82379   2339.0707     4277.8944   0.3314725
s521   -671.64710    147.6183     -524.0288   0.8637832
s522   1458.13837   1176.8159     2634.9543   0.5472110
s523   -268.89216   -928.4953    -1197.3875   0.9092887
s525    973.42289   1320.0869     2293.5098   0.5884565
s526    552.64161   2162.4612     2715.1029   0.5373262
s527   -709.33568   1312.8416      603.5059   0.7689656

最后一个 plotPurity函数,根据保存好的文件来挑选对应的样本进行可视化,出图如下:

其实对大部分使用该包的的文章来说,需要的反而是该包定义的2个基因集,stromal 和 immune , 列表是:

StromalSignature    estimate    DCN PAPPA   SFRP4   THBS2   LY86    CXCL14  FOXF1   COL10A1 ACTG2   APBB1IP SH2D1A  SULF1   MSR1    C3AR1   FAP PTGIS   ITGBL1  BGN CXCL12  ECM2    FCGR2A  MS4A4A  WISP1   COL1A2  MS4A6A  EDNRA   VCAM1   GPR124  SCUBE2  AIF1    HEPH    LUM PTGER3  RUNX1T1 CDH5    PIK3R5  RAMP3   LDB2    COX7A1  EDIL3   DDR2    FCGR2B  LPPR4   COL15A1 AOC3    ITIH3   FMO1    PRKG1   PLXDC1  VSIG4   COL6A3  SGCD    COL3A1  F13A1   OLFML1IGSF6 COMP    HGF GIMAP5  ABCA6   ITGAM   MAF ITM2A   CLEC7A  ASPN    LRRC15  ERG CD86    TRAT1   COL8A2  TCF21   CD93    CD163   GREM1   LMOD1TLR2   ZEB2    C1QB    KCNJ8   KDR CD33    RASGRP3 TNFSF4  CCR1    CSF1R   BTK MFAP5   MXRA5   ISLR    ARHGAP28    ZFPM2   TLR7    ADAM12  OLFML2B ENPP2   CILP    SIGLEC1 SPON2   PLXNC1  ADAMTS5 SAMSN1  CH25H   COL14A1 EMCN    RGS4    PCDH12  RARRES2 CD248   PDGFRB  C1QA    COL5A3  IGF1    SP140TFEC   TNN ATP8B4  ZNF423  FRZB    SERPING1    ENPEP   CD14    DIO2    FPR1    IL18R1  HDC TXNDC3  PDE2A   RSAD2   ITIH5   FASLG   MMP3    NOX4    WNT2    LRRC32  CXCL9   ODZ4    FBLN2   EGFL6   IL1B    SPON1   CD200
ImmuneSignature    estimate    LCP2    LSP1    FYB PLEK    HCK IL10RA  LILRB1  NCKAP1L LAIR1   NCF2    CYBB    PTPRC   IL7R    LAPTM5  CD53    EVI2BSLA    ITGB2   GIMAP4  MYO1F   HCLS1   MNDA    IL2RG   CD48    AOAH    CCL5    LTB GMFG    GIMAP6  GZMK    LST1    GPR65   LILRB2  WIPF1   CD37    BIN2    FCER1G  IKZF1   TYROBP  FGL2    FLI1    IRF8    ARHGAP15    SH2B3   TNFRSF1B    DOCK2   CD2 ARHGEF6 CORO1A  LY96    LYZ ITGAL   TNFAIP3 RNASE6TGFB1 PSTPIP1 CST7    RGS1    FGR SELL    MICAL1  TRAF3IP3    ITGA4   MAFB    ARHGDIB IL4R    RHOH    HLA-DPA1    NKG7    NCF4    LPXN    ITK SELPLG  HLA-DPB1    CD3D    CD300A  IL2RB   ADCY7   PTGER4  SRGN    CD247   CCR7    MSN ALOX5AP PTGER2  RAC2    GBP2    VAV1    CLEC2B  P2RY14  NFKBIAS100A9    IFI30   MFSD1   RASSF2  TPP1    RHOG    CLEC4A  GZMB    PVRIG   S100A8  CASP1   BCL2A1  HLA-E   KLRB1   GNLY    RAB27A  IL18RAP TPST2   EMP3    GMIP    LCK IL32    PTPRCAP LGALS9  CCDC69  SAMHD1  TAP1    GBP1    CTSS    GZMH    ADAM8   GLRX    PRF1    CD69    HLA-B   HLA-DMA CD74    KLRK1   PTPRE   HLA-DRA VNN2    TCIRG1  RABGAP1L    CSTA    ZAP70   HLA-F   HLA-G   CD52    CD302   CD27

生信技能树GATK4系列教程 GATK4的gvcf流程 你以为的可能不是你以为的 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程 GATK4的CNV流程-hg38

肿瘤数据分析工具节选( 搞目录太浪费时间,请自己搜索) WES的CNV探究-conifer软件使用 单个样本NGS数据如何做拷贝数变异分析呢 肿瘤配对样本用varscan 做cnv分析 使用cnvkit来对大批量wes样本找cnv 肿瘤突变数据可视化神器-maftools 使用sequenza软件判定肿瘤纯度

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏GIS讲堂

基于openlayers实现聚类统计展示

在前面的博文中讲述过基于Arcgis for js如何实现聚类统计展示,在本文中讲述如何基于openlayers实现聚类统计的效果,Arcgis for js聚...

15020
来自专栏智能计算时代

IBM Watson提供的认知计算服务介绍

Cognitive Service Introduction Twitter:@huiwenhan Weibo:@huiwenhan Agenda Wats...

36080
来自专栏小特工作室

基于iTextSharp的PDF文档操作

  公司是跨境电商,需要和各种物流打交道,需要把东西交给物流,让他们发到世界各地。其中需要物流公司提供一个运单号,来追踪货物到达哪里?!   最近在和DHL物流...

287100
来自专栏IT派

开源|人脸检测的C / C ++源代

人脸检测的C/C++源代码,曾发表于 OPENCV 的 MAILING LIST,主要是对OPENCV 3.1 版本发布的代码做了一些速度上的优化,并且解决了内...

42450
来自专栏机器人网

别让接线这件小事,拉开你与工程师的差距

导线与导线的连接、线头与接线桩的连接,事情小,责任大。本文图文并茂,让你清清楚楚看懂! 导线与导线的连接 导线的连接情况有:单股铜芯导线的直线连接、T字形连接;...

34770
来自专栏Android点滴积累

Android高效内存2:让图片占用尽可能少的内存

Android高效内存:让图片占用尽可能少的内存 一、让你的图片最小化 1.1 大图小图内存使用情况对比 大图:440 * 336    小图:220 * 16...

315110
来自专栏非著名程序员

Palette让你的应用风格统一,绚丽多彩

今天这个是Android Material Design系列之Palette,Material Design系列的第五篇文章了,由于最近这个系列文章浏览量比较低...

19180
来自专栏xdecode

Java调用PDFBox打印自定义纸张PDF

打印对象 一份设置为A3纸张, 页面边距为(10, 10, 10, 10)mm的PDF文件. ? PageFormat  默认PDFPrintable无法设置页...

60150
来自专栏CreateAMind

End-to-end Driving via Conditional Imitation Learning

Felipe Codevilla, Matthias Müller, Alexey Dosovitskiy, Antonio López, Vladlen Ko...

10610
来自专栏一棹烟波

OpenGL进行简单的通用计算实例

博主作为OpenGL新手,最近要用OpenGL进行并行的数据计算,突然发现这样的资料还是很少的,大部分资料和参考书都是讲用OpenGL进行渲染的。好不容易找到一...

30070

扫码关注云+社区

领取腾讯云代金券