专栏首页生信修炼手册使用TCGAbiolinks下载TCGA的数据

使用TCGAbiolinks下载TCGA的数据

TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下

http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html

这个R包的基本用法如下

1. Query

和在线查询类似,只不过是将网页上的各种可选的属性变成了对应的参数,基本用法如下所示

project为核心进行查询, 其他参数用来对数据进行过滤,常用的有以下几个参数

  1. datga.category
  2. data.type
  3. workflow.type
  4. experimental.strategy
  5. platform
  6. access

以上参数和和网页上的的各项选择菜单相对应,示意如下

除此之外,还有几个重要参数,legacy参数的默认值为FALSE,表示从harmonized database进行查询,TRUE表示从 GDC legacy archive进行查询;barcode参数用于选择其中部分样本的数据。

查询结果的基本单位为Files, 可以通过以下代码进行查看

datatable(getResults(query))

结果是一个html的表格,通过网页进行查看,每行代表一个表格,示意如下

2. Download

除了查看检索结果外,还可以下载检索结果,用法如下

这里分成了两个步骤,第一步从GDC下载原始数据,可以使用API或者gdc-clinet进行下载, API的速度相对快一点;第二步对原始数据的结果进行整理,从GDC下载的原始数据是每个文件单独分开的,需要先对结果进行整理,才可以用于后续分析。以表达谱数据为例,需要进行样本的合并,样本ID的转换等,所有这些都可以通过GDCprepare完成。

整理好的结果存放在data对象中, 样本的信息可以通过如下方式进行查看

结果示意如下

表达量矩阵的信息查看方式如下

结果示意如下

数据下载并整理好之后,就可以进行分析了。不同类型的数据对应的分析方法也不同,具体的分析方法请参考官方文档。

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 通过GDC Legacy Archive下载TCGA原始数据

    在2016年之前,TCGA项目的相关结果文件存放在CGhub和TCGA Data Coordinating Center简称DCC提供的TCGA Data Po...

    生信修炼手册
  • RNAfold预测RNA的二级结构

    在mirdeep软件的分析结果中,会提供miRNA前体的二级结构,这个结果实际上是通过调用RNAfold来实现的,该软件是一个经典的预测RNA二级结构的软件,网...

    生信修炼手册
  • SurvNet:基于网络的肿瘤biomarker基因查找算法

    SurvNet是一种基于网络的算法,用于识别与患者生存状态相关的biomarker, 文章发表在Nucleic Acids Research,链接如下

    生信修炼手册
  • EFK教程(5) - ES集群开启用户认证

    ▷ 在第一篇《EFK教程 - 快速入门指南》中,阐述了EFK的安装部署,其中ES的架构为三节点,即master、ingest、data角色同时部署在三台服务器上...

    小慢哥Linux运维
  • 收藏 | 机器学习开源框架大总结,总有一款适合你

    随着人工智能的兴起,对机器学习能力的需求可谓是急剧增加:从金融到医疗,各行各业都在采用基于机器学习的技术。

    CDA数据分析师
  • TensorFlow与PyTorch对比

    用TensorFlow还是PyTorch?从TensorFlow开始学起还是PyTorch?在一年前,这个问题毫无争议,当然是TensorFlow. 但时过境迁...

    用户7164815
  • 今日分享: 常用工具集

    双鬼带单
  • 免疫相关基因预后模型构建,这个套路不香吗?

    大家好,今天向大家分享的是2020年4月发表在Frontiers in Genetics (IF=3.517) 杂志上的一篇文献《Novel Immune-Re...

    用户6317549
  • 【数据挖掘】PageRank 为什么跻身数据挖掘十大经典算法?

    数据人有话说 Google 的 PageRank 曾是主宰 Google 排名算法的一个主要因素,一度我们看一个网站的排名,往往会先去分析它的 PageRank...

    陆勤_数据人网
  • SCF VS Code 实践:开发网址导航

    什么是 SCF ?我们能利用 SCF 做什么?serverless 要怎么用?优势是什么? 不足点又是什么?

    用户1162626

扫码关注云+社区

领取腾讯云代金券