前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文献笔记六十一:分析GDC数据库中的数据的R语言包GDCRNATools

文献笔记六十一:分析GDC数据库中的数据的R语言包GDCRNATools

作者头像
用户7010445
发布2020-03-19 17:37:49
1.5K0
发布2020-03-19 17:37:49
举报
论文

GDCRNATools: an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC Department of Botany and Plant Sciences, University of California, Riverside Bioinformatics

GDC: The Genomic Data Commons

基本功能
  • 数据下载
  • ceRNA网络分析
  • 差异表达分析
  • 功能富集分析
  • 生存分析
  • 数据可视化 火山图、热图、GO富集分析结果、KEGG富集分析结果等
接下来重复帮助文档中的例子

帮助文档链接 http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html

代码语言:javascript
复制
library(GDCRNATools)
project<-'TCGA-CHOL'
rnadir<-paste(project,'RNAseq',sep='/')
mirdir<-paste(project,'miRNAs',sep="/")
gdcRNADownload(project.id = 'TCGA-CHOL',
               data.type = 'RNAseq',
               write.manifest = F,
               method = 'gdc-client',
               directory = rnadir)

在linux系统中重复到这一步的时候遇到报错 ImportError: /lib64/libc.so.6: version `GLIBC_2.18' not found (required by /tmp/_MEIylVP0W/libstdc++

我的解决办法是把它默认下载的gdc-client_v1.3.0替换掉,我换成gdc-client_v1.5.0,下载地址是https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

代码语言:javascript
复制
gdcRNADownload(project.id = 'TCGA-CHOL',
               data.type = 'miRNAs',
               write.manifest = F,
               method = 'gdc-client',
               directory = mirdir)
clinicaldir<-paste(project,'Clinical',sep='/')
gdcClinicalDownload(project.id = 'TCGA-CHOL',
                    write.manifest = F,
                    method='gdc-client',
                    directory = clinicaldir)
metaMatrix.RNA<-gdcParseMetadata(project.id = 'TCGA-CHOL',
                                 data.type = 'RNAseq',
                                 write.meta = F)
metaMatrix.RNA<-gdcFilterDuplicate(metaMatrix.RNA)
metaMatrix.RNA<-gdcFilterSampleType(metaMatrix.RNA)

metaMatrix.MIR<-gdcParseMetadata(project.id = 'TCGA-CHOL',
                                 data.type = 'miRNAs',
                                 write.meta = F)
metaMatrix.MIR

metaMatrix.MIR<-gdcFilterDuplicate(metaMatrix.MIR)
metaMatrix.MIR<-gdcFilterSampleType(metaMatrix.MIR)

获取表达矩阵

代码语言:javascript
复制
rnaCounts<-gdcRNAMerge(metadata = metaMatrix.RNA,
                       path = rnadir,
                       organized = FALSE,
                       data.type = 'RNAseq')
mirCounts<-gdcRNAMerge(metadata = metaMatrix.MIR,
                       path = mirdir,
                       organized = FALSE,
rnaCounts[1:5,1:5]
mirCounts[1:5,1:5]

标准化表达数据

代码语言:javascript
复制
rnaExpr<-gdcVoomNormalization(counts=rnaCounts,filter=F)
mirExpr<-gdcVoomNormalization(counts=mirCounts,filter=F)
rnaExpr[1:5,1:5]
mirExpr[1:5,1:5]

差异表达分析

代码语言:javascript
复制
DEGAll<-gdcDEAnalysis(counts = rnaCounts,
                      group=metaMatrix.RNA$sample_type,
                      comparison = 'PrimaryTumor-SolidTissueNormal',
                      method='limma')
deALL<-gdcDEReport(deg=DEGAll,gene.type = 'all')
deLNC<-gdcDEReport(deg=DEGAll,gene.type='long_non_coding')
dePC<-gdcDEReport(deg=DEGAll,gene.type = 'protein_coding')

记下来是数据可视化展示

柱形图展示差异表达的基因类型
代码语言:javascript
复制
gdcBarPlot(deg=deALL,angle = 45,data.type = 'RNAseq')

image.png

这里TEC和IG分别是啥?

长链非编码RNA的差异表达火山图
代码语言:javascript
复制
gdcVolcanoPlot(deLNC)
热图
代码语言:javascript
复制
degName<-rownames(deLNC)
gdcHeatmap(deg.id = degName,metadata = metaMatrix.RNA,rna.expr = rnaExpr)

image.png

富集分析
代码语言:javascript
复制
enrichOutput<-gdcEnrichAnalysis(gene=rownames(deALL),
                                simplify=T)
gdcEnrichPlot(enrichOutput,type='bar',category = 'GO',num.terms = 10)

画图的时候遇到报错 Error in .Call.graphics(C_palette2, .Call(C_palette2, NULL)) : invalid graphics state 不知道原因出在哪里,但是保存到本地没问题

代码语言:javascript
复制
pdf(file="../goenrich.pdf",width = 15,height = 15)
gdcEnrichPlot(enrichOutput,type='bar',category = 'GO',num.terms = 10)
dev.off()

image.png

ceRNA网络
代码语言:javascript
复制
ceOUtput<-gdcCEAnalysis(lnc=rownames(deLNC),
                        pc=rownames(dePC),
                        lnc.targets = 'starBase',
                        pc.targets = 'starBase',
                        rna.expr = rnaExpr,
                        mir.expr = mirExpr)
edges<-gdcExportNetwork(ceNetwork = ceOutput2,net='edges')
nodes<-gdcExportNetwork(ceNetwork = ceOutput2,net='nodes')
write.table(edges,file='edges.txt',sep='\t',quote=F)
write.table(nodes,file="nodes.txt",sep="\t",quote=F)

最后生成了两个文件,如何用cytoscape可视化这两个文件我暂时还不知道如何实现。

今天就先到这里了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 获取表达矩阵
  • 标准化表达数据
  • 差异表达分析
  • 记下来是数据可视化展示
相关产品与服务
NAT 网关
NAT 网关(NAT Gateway)提供 IP 地址转换服务,为腾讯云内资源提供高性能的 Internet 访问服务。通过 NAT 网关,在腾讯云上的资源可以更安全的访问 Internet,保护私有网络信息不直接暴露公网;您也可以通过 NAT 网关实现海量的公网访问,最大支持1000万以上的并发连接数;NAT 网关还支持 IP 级流量管控,可实时查看流量数据,帮助您快速定位异常流量,排查网络故障。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档