癌症是一种让人闻风丧胆的疾病,随着人口老龄化,癌症的发生率是越来越高,因此癌症是目前研究的最热门的疾病了。目前,癌症研究早已步入了基因组时代。正因如此,人们需要一个能整合多种癌症基因组测序数据的功能强大的数据库来直接准确地获得自己需要的研究数据。就在这个千钧一发的时刻,TCGA和dbGaP数据库即应运而生为做癌症研究的同志们服务了!
TCGA(The Cancer Genome Atlas https://cancergenome.nih.gov/)癌症基因组图谱,是由美国于2006年启动的项目。目的是为了完成一套完整的与所有癌症基因组改变相关的图谱。
TCGA数据主要分为controlled-access和uncontrolled-access的数据,前者需要拥有申请的账号才可以下载。分别讲一下它们的下载方式。
uncontrolled-access:
打开TCGA界面,
点击Launch Data Portal ,进入选择界面,在这里,可以选择癌症的类型,数据的类型等标准特征。
选择好好之后,可以添加进购物车,然后在右上角,点开购物车,会显示我们下载的数据的个数。
我这里用的下载工具是官方的GDC Data Transfer Tool ,官网即可下载。这里需要注意的是自己linux服务器的版本,下载相应的ubuntu版本或者CentOS版本。然后需要下载一个manifest,得到一个类似gdc_manifest.2017-11-14T02_20_43.120541.txt文件,是需要下载数据的一个清单。
然后在Linux中,运行:gdc-client download -mgdc_manifest.2017-11-14T02_20_43.120541.txt。
即下载成功。
controlled-access:
对于controlled的数据,首先需要有申请的账号(dbGaP的账号就可以)才可以下载,然后需要下载一个token,类似于通行证的一个文件。
文件格式是:gdc-user-token.2018-01-26T07_46_01.905Z.txt
然后将token添加进来。运行代码:
dc-client download -m gdc_manifest_20180126_082725.txt -t gdc-user-token.2018-01-26T07_46_01.905Z.txt
注:这里只是提供了一个关于TCGA在linux中的下载方法。
dbGaP数据下载 :
dbGaP (The Database of Genotypes and Phenotypeshttps://www.ncbi.nlm.nih.gov/gap)基因型和表型数据库,是国立卫生研究院赞助的用于归档、精选和发布由调查基因型和表型间相互作用的研究所产生的信息的数据库。这个数据是数据是需要申请向NIH申请账号才可以下载了,dbGaP的数据拿到是真的不容易啊!
下载过程:
就是首先需要下载一个官方工具SRATOOL(说明指导:https://www.ncbi.nlm.nih.gov/books/NBK36439/#Download.Download_Procedure),下好后最好按照指南用测试数据试一下,确认没问题接下来就需要配置。
需要在下载的工具包的bin目录里,使用./vdb-config -i 出现一个界面
我们可以在界面操作修改工作的位置,一般默认是在主目录下的ncbi目录,这里它特地强调需要足够大的空间来存储数据,可以使用tab键来换行。
配置好之后就需要导入密钥!
因为我们是加密的文件,所以需要导入密钥。这个应该在刚开始就下载好,在这里直接导入。
密钥在我们登陆进去的主页就有。
导入密钥之后就可以下载数据了。
可以直接将run selector 下载出来,然后利用文件的SRRXXXXX号,使用prefetch下载。
参考命令:for i in `cut -f 14 /home/xxx/SraRunTable.txtsed 1d`; do echo $i;/home/xxx/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch $i; done
领取专属 10元无门槛券
私享最新 技术干货