前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分享一种快速下载SRA数据集的方法

分享一种快速下载SRA数据集的方法

作者头像
生信菜鸟团
发布2024-05-11 16:46:55
1440
发布2024-05-11 16:46:55
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

大家好!我们都知道在进行生物信息分析的时候,会用到原始数据fastq文件。但是,我们想利用别人的测序数据进行重分析时,一般不能直接从NCBI数据库中下载到fastq文件,而是要先下载SRA数据。那么,如何能高效下载SRA数据呢,目前主要的方式包括5种:通过NCBI官方提供的SRA Toolkit工具进行下载;通过链接直接下载或Linux中的wget下载;利用aspera 高速下载;利用grabseqs 工具下载;运用python爬虫等工具进行辅助下载。这几种方式已有很多小伙伴发了帖子,想要使用哪种方式直接问度娘就好!

SRA(Sequence Read Archive)数据库是NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)旗下的一个专门用于存储高通量测序数据的子库。它收集了来自全球的原始测序数据,这些数据可以免费下载,对于生命科学研究人员来说,SRA数据库是一个宝贵的资源。

数据类型

SRA数据库存储的数据类型包括:

  • 原始测序数据(raw sequencing data),fastq文件
  • 序列比对信息(alignment information),bam文件

数据上传

许多杂志在论文发表时要求作者将高通量测序数据在SRA公开发布。上传到SRA的数据需要经过一定的准备和上传流程,包括:

  1. 安装FTP软件(如FileZilla)以便上传数据。
  2. 准备数据文件,常见的文件类型有fasta、fastq、bam等。
  3. 通过SRA数据库的上传页面(Submission Portal)进行数据上传。

数据下载

研究人员可以通过多种方式下载SRA数据库中的序列数据,包括:

  • 网页下载
  • 使用浏览器插件(如Aspera connect)
  • 使用SRA工具包下载

数据结构

SRA数据库的数据结构基于以下四个概念构建:

  • STUDY:研究课题/项目,前缀如SRP、DRP、ERP。
  • SAMPLE:样本信息,前缀如SRS、DRS、ERS。
  • EXPERIMENT:实验信息,一次实验可以包含多个样本和RUN,前缀如SRX、DRX、ERX。
  • RUN:对应于特定的测序运行,前缀如SRR、DRR、ERR。

数据挖掘

SRA数据库的数据可以用于多种研究目的,包括但不限于:

  • 挖掘已发表文章的原始数据。
  • 研究非编码基因和DNA调控元件。
  • 研究反式剪切和环状RNA。
  • 从头分析原始测序数据,探寻新的基因。

SRA数据库为科研人员提供了一个强大的数据资源,有助于推动生命科学领域的研究进展。

今天,我们想给大家分享的是另一个自认为比较便捷,适用且快速的SRA 数据集下载方法,关键还是免费使用的(其实,就是通过链接直接使用idm软件下载的一种方式)!喜欢的家人们记得收藏哈!因为操作简单,所以我们直接步入正题:

Step 1:打开NCBI,在SRA下输入要下载的数据集PRJNA778726(示例数据集)

Step 2: 点击“Send to”,选择File → RunInfo → Create File

Step 3:数据下载到本地后,我们用Excle打开

你会发现这个表中包含了很多的内容,我们一般关注以下几列:Run,Download_path,ExperimerLibraryName,LibraryStrategy,LibraryLayout,Platform,ScientificName,SampleName和Sex等。需要定位到里面的下载链接哈

Step 4: 根据上述信息选择适合自己研究课题的样本数据,将下载路径分别复制到IDM软件中,进行断点下载。

Step 5: 查看下载结果和所用时长,支持断点下载,速度超快!

好啦!今天的分享就到这里了,内容很简单,希望我小小的分享能给您的科研道路带去一点余光!

文末推荐大家学习一下SRA(Sequence Read Archive)数据库提供了一系列的API(应用程序编程接口),允许研究人员和开发者以编程的方式访问和操作SRA中的数据。以下是一些常用的SRA数据库API:

  1. E-utilities API:NCBI提供了E-utilities API,它允许用户从NCBI的各种数据库中检索数据,包括SRA。用户可以通过编写脚本来检索特定的SRA数据集,例如通过Run Accession Numbers搜索。
  2. SRA Toolkit:SRA Toolkit是一套用于下载、处理和验证存储在NCBI中的下一代测序数据的工具。它包括多个命令行工具,如prefetchfastq-dump,这些工具可以用于自动化下载和转换SRA数据。
  3. Aspera Connect:Aspera Connect是一个高速数据传输客户端,它与SRA Toolkit集成,可以用于快速下载SRA数据。
  4. SRA Explorer:SRA Explorer是一个网页端应用,旨在使SRA数据更易于检索和下载。它支持用户通过图形界面搜索和选择数据集,并且可以生成用于下载的命令行脚本。
  5. SRA API:SRA数据库可能还提供了直接的API接口,允许用户通过编程方式提交和检索数据。具体的API文档和使用方法可以在NCBI的官方网站上找到。
  6. 编程语言库:一些编程语言可能有专门的库或模块,用于简化与SRA数据库的交互,如Python的Biopython库。
  7. 云服务集成:SRA数据也可以通过多个云服务提供商获取,这为大规模数据分析提供了便利。
  8. SRA数据提交API:对于希望向SRA提交数据的研究者,NCBI提供了关于SRA提交的详细信息和指南。

使用这些API时,用户需要遵守NCBI的使用条款和数据使用政策。具体的API使用方法和参数可能会随时间更新,因此建议直接查阅NCBI提供的官方文档或资源链接以获取最新信息。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据类型
  • 数据上传
  • 数据下载
  • 数据结构
  • 数据挖掘
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档