如何从Encode数据库上下载数据?

  今天这篇笔记,简单的记录一下如何从Encode数据库上下载数据!

Ready~Go!


图一 Encode 界面

  简单介绍一下Encode这个数据库:它的全称是Encyclopedia of DNA Elements,简称为ENCODE。是由美国国家人类基因组研究所(NHGRI)在2003年发起的一个项目。主要是存放了人类,小鼠,果蝇,蠕虫这4个物种的多组织,细胞测序结果(而基本涵盖了主流的测序数据,非常之多!见图二)

图二 Encode包含的测序类型

  最近在关注Repli-seq的测序数据,所以我想看看Encode上有没有GM12878的Repli-seq的数据。那么怎么做呢?


step1:

  点击cell line这一个选项,会出现很多的细胞系结果,找到GM12878,以及其对应的数据

点击 cell line

GM12878的repli-seq数据

step2:

  点击这个数据,然后可以进一步的看到详细的信息,在Repli-seq里面可以看到这个数据把细胞间期分了6个时期。G1b,S4,S3,S2,S1,G2时期

GM12878数据

step3:

  我们以G1b时期为例,点击file进去看看上传了哪些数据类型:

数据文件类型

  我们可以看到有3种数据类型,分别是fastq, bigwig,bam这3种文件类型。看需要那种类型的文件进行分析直接红框里下载的图标。然后再拖到大型机上就好了。

step4:

  但是!如果是一个个手动下载的话,是一件非常慢的事情,我们有什么方法可以简便下载吗?

点击页面的download

弹出来界面,然后点击download

就可以得到一个包含了所有文件下载链接的txt文件。打开来看一下

下载file txt

  除了第一行是下载的metadata的信息以外,从第二行开始都是下载的网址信息。接下来我们可以在大型机上操作这个事情了。

step5:

首先我把这个txt改成了后缀为.sh的文件,把它重命名为了download.sh

然后我根据数据类型分属的时期。加上了下载信息的备注。(因为我不需要原始的fq文件,所以我把下载fq的那一行进行了注释,不需要下载。)

用vim打开

step6 :

接下来一个命令行就可以搞定啦:

wget -i download.sh

看到进度条就说明已经开始下载啦。

下载进度

Ref: https://www.encodeproject.org/

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券