前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA的28篇教程-整理GDC下载的xml格式的临床资料

TCGA的28篇教程-整理GDC下载的xml格式的临床资料

作者头像
生信技能树
发布2018-08-16 17:18:06
3.2K1
发布2018-08-16 17:18:06
举报
文章被收录于专栏:生信技能树生信技能树

临床资料因为一直在更新,很多朋友可能需要去下载最新版的,所以不得不使用GDC官网下载的方式。

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以使用下面代码下载:

# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_OSX_x64.zip 
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_Ubuntu14.04_x64.zip
unzip gdc-client_v1.3.0_OSX_x64.zip

/gdc-client --help
./gdc-client download --help 
mkdir clinical
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-clinical.txt -d clinical
#  Successfully downloaded: 522
mkdir miRNAseq
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-LUAD-miRNA-seq.txt -d miRNAseq
#  Successfully downloaded: 567
或者直接从微云下载:链接:https://share.weiyun.com/5XsyuzH 密码:68pm7e 

但是有个很严重的问题是该下载方式会对每一个病人给出一个xml格式文件记录着临床信息。

简单给一个代码:

# Load the packages required to read XML files.
library("XML")
library("methods")
dir='/Users/jmzeng/biosoft/gdc_client/miRNAseq/'
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)
cl = lapply(all_fiels
            , function(x){
              #x=all_fiels[1]
              result <- xmlParse(file = file.path(dir,x)) 
              rootnode <- xmlRoot(result)  
              xmldataframe <- xmlToDataFrame( rootnode[2] ) 
              return(t(xmldataframe))
            })

cl_df <- t(do.call(cbind,cl))
save(cl_df,file = 'GDC_TCGA_LUAD_clinical_df.Rdata')

得到的生存资料如下所示:

是不是很简单呀,赶快去试试看吧!

而且有了这样的生存资料,根据我前面的讲解,很容易就可以做出性别或者年龄是否影响生存哦!!!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档