高通量数据下载还能这样操作?

本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html )第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。

文章

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据

根据文章中的提示,打开NCBI上的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)

在搜索框中输入登录号“GSE81916”。在新打开的页面中,拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据,Supplementary file是原始数据,提供SRA格式的文件(通过ftp下载)和bw压缩格式的文件(通过 http下载, 点击custom可以选择要下载的文件)

ftp链接打开后显示有15个SRR文件

点击custom后显示有15个bw文件(bw文件是精简版的bam文件),可以选择想要的文件后再下载。

根据“Sample”以及“Overall design”中的信息可以大概看出,属于RNA-seq的数据有:第9-15个样品,即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢?

以GSM2177724为例,直接点击,一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。

从NCBI下载数据

那么如何下载这些数据呢? GEO数据库已经给出了答案:

但是看完后依然不明白具体的下载方法,于是我自己摸索出了以下的下载方法:

1.直接点击http或者ftp连接依次点击下载全部打包文件。

这个方法下载速度很慢。

2.linux下通过sratoolkit工具中的prefetch命令下载

prefetch SRR3589948

这种方法常常出现链接失败,或者链接断掉

3.参考某篇博客中提到的方法

( http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ):NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件,根据文件中的下载地址,用wget命令批量下载:

tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt  #将csv文件中的逗号分割替换成tab分割head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其中下载路径是第几列    10 downloas_path #返回结果显示是在第10列tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,并利用wget进行下载#依次下载太慢,可以生成脚本并行下载tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本bash download.sh  #运行脚本进行并行下载

4.使用Aspera

教程: http://boyun.sh.cn/bio/?p=1933 以及: http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种

Server版的点击后毫无反应

Client版的只有windows系统下的浏览器插件

根据提示在window上安装好aspera后,再进入 GEO数据库尝试下载sra文件,但是 aspera并不启动。 后来,终于找到了这一篇文章: http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载,需要进入到特定的NCBI网址: https://www.ncbi.nlm.nih.gov/projects/faspftp/

从这里根据SPR075747这个study编号,找到文章中所有的原始数据,就可以通过 Aspera client下载了,速度嘛,也不快,300多k。

5.使用GEOquery

无意中找到Jimmy大神的一篇帖子( http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ),介绍了用R包GEOquery下载GEO数据库中的数据的方法,可参考。

以上就是我尝试的5种下载方法,最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能,但是相对于我的目标(分析数据)来说,花太多时间纠结下载方法其实并不好,应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么?环境配置?软件安装?数据下载不,不是。而应该是解读数据,从数据中回答生物学问题!这才是我们应用生物信息学的最终目的。

作业

关于GEO/SRA数据库

GEO数据库

GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!

参考介绍: https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

SRA文件的存放

从NCNI的这个站点( https://www.ncbi.nlm.nih.gov/projects/faspftp/ )可以看出,sra原始的reads数据是在sra/sra-instant/下的,该目录下的analysis是分析结果文件。

reads目录下,又分为ByExp,ByRun和ByStudy三个目录,每个目录下都有sra子目录,而且又分为三个子目录,所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。

软件及参数

  1. 回帖:Tophat2.0.13,参考基因组GRCh37/hg19,gene transfer file(GTF version GRCh37.70),去掉MQ>30的reads(low quality mapped reads)
  2. 计算reads count: HTSeq0.6.0
  3. 差异表达基因:DEseq3.0
  4. deferential exon usage:DEXSeq3.1
  5. read per million normalization: BEDTools2.17.0, bedGraphToBigWigtool 4.

本文首发于知乎专栏:学习·持续输出 (点击阅读原文查看)

编辑:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玉树芝兰

如何在 GPU 深度学习云服务里,使用自己的数据集?

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

702
来自专栏王小雷

基于Docker的TensorFlow机器学习框架搭建和实例源码解读

概述:基于Docker的TensorFlow机器学习框架搭建和实例源码解读,TensorFlow作为最火热的机器学习框架之一,Docker是的容器,可以很好的结...

2739
来自专栏ATYUN订阅号

小白也可以操作的手机TensorFlow教程:Android版和iOS版

TensorFlow通常用于训练海量数据,但新兴的智能手机市场也不可忽略。那些不能等待未来和love Machine Learning的人正在通过制造工具来突破...

3366
来自专栏机器学习实践二三事

NeuralTalk2---自动产生图片的语句描述

最近被逼看了点自然语言处理(NLP)的论文,好吧我看不懂,本来我就不是搞这个方向的,说的我迷迷糊糊的,哎,隔行如隔山啊 不过在过程中倒也是收获到了一些东西,比如...

21310
来自专栏企鹅号快讯

如何使用Mahout在hadoop进行集群分析

Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展...

2155
来自专栏PPV课数据科学社区

号称世界最快句法分析器,Python高级自然语言处理库spaCy

spaCy是Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量...

3358
来自专栏10km的专栏

SSD(Single Shot MultiBox Detector):ubuntu16安装及训练自己的数据集(VOC2007格式)过程记录

安装SSD # SSD代码clone到 caffe-ssd文件夹下 git clone --recursive https://github.com/weili...

3666
来自专栏人工智能LeadAI

配置深度学习主机与环境(TensorFlow+1080Ti) | 第四章 基于Anaconda的TensorFlow安装

配置深度学习主机与环境(TensorFlow+1080Ti): 01 概念介绍 Anaconda Anaconda(https://www.continuu...

3695
来自专栏CreateAMind

comma.ai George Hotz 挑战谷歌的自动驾驶系统测试搭建过程

1263
来自专栏Python中文社区

手把手教你用1行代码实现人脸识别

專 欄 ❈Kangvcar,Python爱好者,简书活跃作者,欢迎关注,打赏支持。❈ 环境要求: Ubuntu17.10 Python 2.7.14 环境...

1.1K10

扫码关注云+社区