dbGaP加密数据权限申请和数据解密

我们在NCBI、TCGA、GEO等数据库下载数据时,经常遇到controlled access(限制下载)的数据,不知道怎么弄,有时选择其他可以下载的数据代替,或者直接放弃了。其实这些数据库都是需要通过dbGaP申请下载权限的。

这里就以NCBI为例给大家介绍一下dbGaP数据权限申请过程,以及数据下载解密时要注意的地方。

Step1:获取账号

dbgap账号需要NCI/NIH认证资格,一般是实验室的PI、且申请过NIH或是NCI的资助,才可能有dbgap账号。所以我们要咨询一下实验室的PI有没有账号,有的话基本成功一半了。

Step2:创建Project

Step3:填写项目内容

项目申请的页面如下:

A. 首先要选择你要申请的dataset,这里可以搜索dataset的编号,也可以按照类型筛选,勾选dataset前面的多选框就行(可多选)。选择好之后拉到最下面,点击”Add Selected and Continue”。

B. 下面就要填写你的项目内容,也就是你申请这个数据要用来做什么研究的具体介绍。包括:项目名称、项目具体介绍、以及非专业的介绍。此外还需要选择SO信息、 Collaborators、IT Director等信息,这些信息PI都有,可以让你们实验室的PI填写。有的数据要按要求准备其他(比如:IRB approval)文件并上传。

C. 确认信息、提交

填写完基本信息之后,在Confirm Datasets那一栏里确认一下信息,一步步确认点下来,提交就可以了。然后就是等待。。。。。几个星期之后可以在My Request里面查看审核状态。

Step4. 下载数据和Key

点击Downloads,可看到审核通过的可以下载的datasets列表,点击右侧Actions栏里面的Download可以下载数据(需要安装aspera),此处下载的数据是加密的,文件后缀是".ncbi_enc"。点击"get dbGaP repository key"下载解密要用的key,文件以“.ngc”结尾。

Step5. 文件解密

解密使用的软件是SRA-Toolkit,建议在linux端运行。

导入key文件:

vdb-config --import xxxx.ngc

(xxxx.ngc为key文件)

此时会自动创建"/home/ncbi/dbGaP-xxxx"文件夹及一些子目录,之后的解密命令要进入该文件夹操作

进入ncbi路径:

cd /home/ncbi/dbGaP-xxxx

运行解密命令:

vdb-decrypt xx.ncbi_enc

(xx.ncbi_enc为下载的需要解密的文件)

注意,运行vdb-decrypt时一定要切换到ncbi路径里,否则会报错!

大功告成!就可以看到文件加密后缀不见了,变成我们熟悉的文件格式。

以上就是dbGaP数据申请和下载解密的方法,希望大家都能顺利申请到权限,利用好公共数据库。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171221G0JVFC00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区