前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过R包UCSCXenaTools链接UCSC的XENA浏览器来探索TCGA等公共数据

通过R包UCSCXenaTools链接UCSC的XENA浏览器来探索TCGA等公共数据

作者头像
生信技能树
发布2022-07-26 10:06:51
6740
发布2022-07-26 10:06:51
举报
文章被收录于专栏:生信技能树

前面我们介绍了MSKCC和Broad研究所的网页工具可以帮助我们探索TCGA数据库的多个癌症的多组学数据,见:

类似的机构其实还是 MD Anderson Cancer Center 和 UCSC,其中UCSC的XENA浏览器就把TCGA等公共数据整理的工工整整。官网链接是:https://xenabrowser.net/

同理,我们并不想介绍网页工具的用法,虽然它确实很强大,选择好感兴趣的癌症的数据集,输入基因或者临床信息,就可以看表达量差异以及分组后的生存分析图表。我们更想介绍的是生信工程师最喜欢的R代码形式,使用R包UCSCXenaTools就可以一次性的链接到 https://xenabrowser.net/datapages/ 全部的数据集。

前面的MSKCC和Broad研究所的网页工具都赫赫有名, 其对应的R包通常是官方团队开发,因为R包本身仅仅是提供了一个接口去访问网页段能访问的数据文件而已,它提供的一些数据分析函数或者统计可视化函数并不出彩。而UCSC的XENA浏览器来探索TCGA等公共数据对应的R包稍微有一点点不一样,它并不是官方团队开发的,而是在华语生物信息学知识整理圈子小有名气的长期主义者:王诗翔。那我们一起来看看这个包吧。:

安装方式非常简单:

代码语言:javascript
复制
install.packages('UCSCXenaTools')

它的核心步骤是5个 generate, filter, query, download and prepare ,对应的函数是:XenaGenerate, XenaFilter, XenaQuery, XenaDownload and XenaPrepare

支持的数据集

这个UCSCXenaTools包自带了一个表格,是XenaData,可以看到:

代码语言:javascript
复制
library(UCSCXenaTools) 
data(XenaData)

> dim(XenaData)
[1] 1675   17

> as.data.frame(tail(sort(table(XenaData$XenaCohorts))))
                             Var1 Freq
1       TCGA Rectal Cancer (READ)   25
2           PCAWG (donor centric)   26
3 TCGA Endometrioid Cancer (UCEC)   26
4        PCAWG (specimen centric)   27
5        TCGA Ovarian Cancer (OV)   27
6        TCGA Pan-Cancer (PANCAN)   41

> length(unique(XenaData$XenaCohorts))
[1] 157

它不仅仅是涵盖了 https://xenabrowser.net/datapages/ 页面的 129 Cohorts, 1571 Datasets ,

而且可以看到绝大部分队列都是有表达量矩阵的:

代码语言:javascript
复制
> as.data.frame(tail(sort(table(XenaData$DataSubtype))))
                                      Var1 Freq
1                          DNA methylation  101
2                         pathway activity  103
3                 copy number (gene-level)  109
4 somatic mutation (SNPs and small INDELs)  142
5                                phenotype  284
6                   gene expression RNAseq  285

因为是多组学,有表型的数据才是活的,其它的,比如甲基化,点突变和拷贝数变异就不一定是每个队列都有。

数据虽然是多种多样,但是最后的本质仍然是4种文件格式:

代码语言:javascript
复制
> as.data.frame(tail(sort(table(XenaData$Type))))
            Var1 Freq
1 genomicSegment  152
2 mutationVector  203
3 clinicalMatrix  343
4  genomicMatrix  977

5大函数

前面提到了这个包其实就5大函数,包括:XenaGenerate, XenaFilter, XenaQuery, XenaDownload and XenaPrepare

首先举例查询肺癌的临床数据集文件列表:

代码语言:javascript
复制
# The options in XenaFilter function support Regular Expression
XenaGenerate(subset = XenaHostNames=="tcgaHub") %>% 
  XenaFilter(filterDatasets = "clinical") %>% 
  XenaFilter(filterDatasets = "LUAD|LUSC|LUNG") -> df_todo

df_todo

可以看到有3个clinicalMatrix可以下载:

代码语言:javascript
复制
> df_todo
class: XenaHub 
hosts():
  https://tcga.xenahubs.net
cohorts() (3 total):
  TCGA Lung Cancer (LUNG)
  TCGA Lung Adenocarcinoma (LUAD)
  TCGA Lung Squamous Cell Carcinoma (LUSC)
datasets() (3 total):
  TCGA.LUNG.sampleMap/LUNG_clinicalMatrix
  TCGA.LUAD.sampleMap/LUAD_clinicalMatrix
  TCGA.LUSC.sampleMap/LUSC_clinicalMatrix
> 

然后针对筛选到的文件列表,进行下载:

代码语言:javascript
复制
# options(use_hiplot = TRUE)
XenaQuery(df_todo) %>%
  XenaDownload() -> xe_download
xe_download

其实就是解析了前面提到的3个临床信息文件的下载地址,如下所示:

代码语言:javascript
复制
1 https://tcga.xenahubs.net/download/TCGA.LUNG.sampleMap/LUNG_clinicalMatrix
2 https://tcga.xenahubs.net/download/TCGA.LUAD.sampleMap/LUAD_clinicalMatrix
3 https://tcga.xenahubs.net/download/TCGA.LUSC.sampleMap/LUSC_clinicalMatrix

一般来说,下载后会存储在当前R语言的临时工作目录,可以使用 tempdir() 函数获取到。因为是临时目录,所以每次重新打开R语言都会变动,理论上下载的文件是需要清理的,尤其是下载表达量矩阵或者甲基化信号值矩阵的时候,动辄就是几百个M或者几个G,大家的 tempdir() 函数的临时目录通常是在电脑C盘,很容易满。所以建议大家修改这个 XenaDownload() 函数的 destdir参数。

因为这个时候下载的是文件,并不在R里面,所以R包UCSCXenaTools最后一个函数就是读取这些文件到R里面,成为了一个列表:

代码语言:javascript
复制
cli = XenaPrepare(xe_download)
class(cli)

总体上就是5大函数,包括:XenaGenerate, XenaFilter, XenaQuery, XenaDownload and XenaPrepare 的配合,帮助大家无需访问 https://xenabrowser.net/datapages/ 网页,也可以获取下载链接,读入r里面进行后续处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 支持的数据集
  • 5大函数
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档