前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用R语言下载TCGA数据库:FirebrowseR

手把手教你用R语言下载TCGA数据库:FirebrowseR

作者头像
百味科研芝士
发布2019-05-23 23:13:48
2K0
发布2019-05-23 23:13:48
举报
文章被收录于专栏:百味科研芝士

各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果把TCGA比作一座山,聪明的科研工作者,便可以开发出无数有效的翻山越岭的工具,今天,我们同样的比对着之前的网页版工具,来看看又有什么好工具来值得开发?

之前,岛主给大家推荐了Fire Browse工具,进行数据下载:零代码下载TCGA数据库第四期:Fire Browse工具,那么Fire Browse有没有对应的R语言工具包呢?这个时候怎末办呢?

别急,我们直接上网页去看有没有R包。

甩出网址链接:http://firebrowse.org/

Fire Browse

点击WEB API,便可以看到这样的界面:

我们看到它不仅提供了R接口,还提供了python接口,自然我们今天主要是介绍R语言处理该数据,点击进去,如下:

Github地址:https://github.com/mariodeng/FirebrowseR

所以今天的主角便是FirebrowseR工具包。

下面开启你的R界面,学习该包:

1. FirebrowseR安装有些不同,首先要先安装devtools包:

接着再去安装FirebrowseR,安装命令如下:

2. 加载该包:

OK,可以看到没有任何问题,这也表明,我们安装成功该工具包

3. 查看存在哪些数据集,命令如下:

结果如下:

分别代表TCGA癌症的简称和癌症的描述。Firebrowse一共存在38个癌症数据集。

4. 这里我们以肺癌为列,名称为Lung adenocarcinoma。

可以看到在TCGA的简称为LUAD

5. 写个函数来下载临床数据,这里提醒一点,在下载表达数据的时候,最后先下载临床数据:

一个while循环下载相应的临床数据,借助的函数为Samples.Clinical 函数,该函数需要输入四个参数,format这里选择了csv格式文件,cohort参数代表需要下载的癌症简写,这里为LUAD,page_size默认为150,z一般使用默认值即可,page代表下载的当前页码。

结果文件如下:

6. 同样写个函数来下载特定基因的表达数据:

首先定义好我们感兴趣的基因,这里随意选择了三个基因,分别为ESR1,GATA3,XBP1,接着同样的一个while循环下载数据,注意一点我们在给Sample.mRNASeq输入参数的时候,需要用到luad.Pats这个对象,因此建议大家先下载临床信息,在下载特定的基因表达信息。

7. 表达信息合并整理:

结果如下:

Sample type这一列women看到,两种类型,NT和TP,其中NT为癌, TP为癌旁,这个时候你的表达信息也就下载好了

8. 可视化一下,如下:

结果如下:

这样你就可以看到自己感兴趣的基因在不同样本里表达信息。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档