专栏首页生信补给站TCGA|根据somatic mutation绘制突变景观图(oncoplot)和基因词云

TCGA|根据somatic mutation绘制突变景观图(oncoplot)和基因词云

使用 XENA下载的TCGA-LAML.mutect2_snv.tsv文件绘制基因词云和突变景观图。

基因词云

有小伙伴在https://mp.weixin.qq.com/s/DvX_pKPF9bCcNqc3u6rTuw这个帖子下面留言说使用 maftools 的 genecloud函数绘制基因云图时,报错提示没有这个函数,然后还提到 http://bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html 官方文档中也没有genecloud,,也许是我的版本比较早所以还有吧,,,

虽然genecloud无法绘制,但是可以使用wordcloud2绘制,同样很简单

1.1 加载R包和数据

将XENA下载后的数据TCGA-LAML.mutect2_snv.tsv.gz解压,然后直接读入

#一键清空
rm(list = ls()) 
#载入R包
library(tidyverse)
#读入数据
mut <- read.table("TCGA-LAML.mutect2_snv.tsv",sep = "\t" , header = T, 
                   stringsAsFactors = FALSE ,
                   check.names = FALSE)
head(mut,2)

1.2 计算基因频次,绘制词云

#计算每个基因出现的个数
mut2 <- mut %>% filter(effect %in% c("missense_variant","inframe_insertion")) %>%
  select(Sample_ID,gene) %>% 
  group_by(gene) %>% 
  summarise(Freq = n()) %>% 
  arrange(desc(Freq))

head(mut2)

####绘制基因词云#####
library(wordcloud2)
#绘制频次大于等于5的
da <- subset(mut2,Freq >= 5) #、
wordcloud2(da)

1.3 maf文件绘制词云图

如果使用maftools中的maf文件绘制呢?首先根据maftools|TCGA肿瘤突变数据的汇总,分析和可视化得到了laml数据,那么可以用以下方式获得基因云图

library(wordcloud2)
data2 <- as.data.frame(table(laml@data$Hugo_Symbol))
da2 <- subset(data2,Freq >= 3) #3就是minMut参数的值
wordcloud2(da2)

瀑布图(oncoplot)

2.1 提取基因

提取 1.2中突变频次较高的基因,进行绘制

mut3 <- mut %>% filter(gene %in% da$gene) %>% 
  select(Sample_ID,gene,effect) %>% 
  #只选择"missense_variant","inframe_insertion"两种类型
  filter(effect %in% c("missense_variant","inframe_insertion")) %>% 
  unique()

#转成绘制热图的数据形式(宽型数据)
library(reshape2)
mut3_dcast <- mut3 %>% dcast(Sample_ID ~ gene,value.var='effect') %>% 
  dplyr::select(Sample_ID, da$gene) %>% 
  column_to_rownames("Sample_ID") %>% 
  t()

2.2 ComplexHeatmap绘制突变景观图

library(ComplexHeatmap)
library(circlize)

mat <- mut3_dcast
mat[is.na(mat)]<-""
mat[1:6,1:6]

oncoPrint(mat)

2.3 景观图调整

#指定颜色, 调整颜色代码即可
col <- c( "missense_variant" = "blue" , "inframe_insertion" = "green")
#指定变异的样子,x,y,w,h代表变异的位置(x,y)和宽度(w),高度(h)
alter_fun <- list(
  background = function(x, y, w, h) {
    grid.rect(x, y, w-unit(0.5, "mm"), h-unit(0.5, "mm"),
              gp = gpar(fill = "#CCCCCC", col = NA))
  },
  missense_variant = function(x, y, w, h) {
    grid.rect(x, y, w-unit(0.5, "mm"), h-unit(0.5, "mm"),
              gp = gpar(fill = col["missense_variant"], col = NA))
  },
  inframe_insertion = function(x, y, w, h) {
    grid.rect(x, y, w-unit(0.5, "mm"), h*0.33,  
              gp = gpar(fill = col["inframe_insertion"], col = NA))
  }
)

#指定变异类型的标签,和数据中的类型对应
heatmap_legend_param <- list(title = "Alternations",
                             at = c("missense_variant","inframe_insertion"),
                             labels = c( "missense_variant","inframe_insertion"))


#设定标题
column_title <- "This is Oncoplot "  
oncoPrint(mat,
          alter_fun = alter_fun, col = col,
          column_title = column_title,
          remove_empty_columns = TRUE, #去掉空列
          remove_empty_rows = TRUE, #去掉空行
          row_names_side = "left", #基因在左
          pct_side = "right",
          heatmap_legend_param = heatmap_legend_param)

更多参数参考ComplexHeatmap|根据excel表绘制突变景观图(oncoplot)

本文分享自微信公众号 - 生信补给站(Bioinfo_R_Python),作者:生信补给站

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-10-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 精心整理(含图PLUS版)|R语言生信分析,可视化

    为了能更方便的查看,检索,对文章进行了精心的整理(PLUS)。建议收藏,各取所需,当前没用也许以后就用到了呢!

    西游东行
  • maftools|TCGA肿瘤突变数据的汇总,分析和可视化

    之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫“瀑布...

    生信宝典
  • TCGA体细胞突变系列教程--胃癌

    有这个想法很久了,我教了很多人如何批量下载TCGA数据,以及分析各个癌症的somatic突变信息以及TMB,还有突变的特征频谱。

    生信技能树
  • maftools | 从头开始绘制发表级oncoplot(瀑布图)

    对于组学数据的分析和展示来说,maftools算是一个宝藏“R包”,可用于MAF格式的组学数据的汇总,分析和可视化展示。

    生信宝典
  • 肿瘤突变数据可视化神器-maftools

    全部流程在R里面运行,maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作。

    生信技能树
  • 2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)

    而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and ...

    生信技能树
  • TCGA数据挖掘 | Xena - TCGA数据下载

    TCGA (The Cancer Genome Atlas)作为目前超常用的癌症基因信息的数据库,有多种肿瘤的表达谱数据,变异信息(mutation,copy ...

    西游东行
  • ComplexHeatmap|根据excel表绘制突变景观图(oncoplot)

    https://github.com/jokergoo/ComplexHeatmap

    西游东行
  • MAF:Mutation Annotation Format格式简介

    Mutation Annotation Format, 简称MAF, 是由TCGA制定的一种文件格式,用来存储突变注释信息。在TCGA中,对于突变数据有以下四种...

    生信修炼手册

扫码关注云+社区

领取腾讯云代金券