前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >熟悉测序数据的下载

熟悉测序数据的下载

作者头像
生信喵实验柴
发布2021-12-21 16:49:45
7450
发布2021-12-21 16:49:45
举报
文章被收录于专栏:生信喵实验柴生信喵实验柴

背景

做生物信息的过程中,除了可以分析自己研究的测序数据,也可以分析公开的测序数据。目前已经累积了大量的测序数据可供下载分析。目前测序数据主要发表在 NCBI,EBI,CNDB,DDBJ 等几大站点。

一、SRA 数据库简介

SRA(Sequence Read Archive)数据库是 NCBI 用于存储测序的原始数据的数据库,包括 454,Illumina,SOLiD,IonTorren,pacbio,nanopore 等。我们经常会看到文献中给出数据名字为 SRA 然后后面接一些数字。我们根据这个 SRA 的 ID 就可以进行下载了,然后进行数据的分析,重复文献的分析内容。

链接地址:https://www.ncbi.nlm.nih.gov/sra/

根据 SRA 数据产生的特点,将 SRA 数据分为四类:

Studies-- 研究课题,ERP 或 SRP 表示 Studies;

Experiments-- 实验设计,SRX 表示 Experiments;

Samples-- 样品信息,SRS 表示 Samples;

Runs-- 测序结果集,SRR 表示 Runs。

这四种分类有一个层次关系。首先是 Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。SRA 数据可以使用 NCBI 提供的 sratoolkit 工具来进行处理。

二、利用 sratookit 管理 SRA 数据库

sra 工具包里面包含了很多工具,可以用来管理和操作 sra 数据库的资源,可以处理多种测序平台的数据。fastq-dump: 最常用的,将 SRA 数据转换为 fastq 格,也可以直接下载数据 prefetch 下载 sra 数据。

网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

代码语言:javascript
复制
下载指定版本
ubuntu
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-ubuntu64.tar.gz
centos 版本
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.8/sratoolkit.2.10.8-centos_linux64.tar.gz
tar -zxvf sratoolkit.2.10.8-centos_linux64.tar.gz
首次运行需要进行配置
vdb-config --interactive

三、下载文献数据

3.1 数据介绍

下载测序数据只要获得该数据在 SRA 数据库中对应的 SRA 号即可,一般会在文章中的 Data

部分。如果存在多样本,则需要得到 PROJECT 号,在 PROJECT 号下面找对应的数据。

Data bibliography

1. Raw sequencing data: NCBI BioProject Accession PRJNA422511

(https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511).

2. Assemblies: FigShare doi https://doi.org/10.6084/m9.figshare. 7649051 (https://doi.org/10.6084/m9.figshare.7649051).

3. NCBI GenBank reference sequences:

a. CFT073: NC_004431.1 (chromosome)

b. MGH78578: NC_009648.1 (chromosome); NC_009649.

《Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes》

3.2 获取 PRJNA422511 项目数据

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA422511

3.3 下载测序数据

代码语言:javascript
复制
prefetch SRR8482567 -O ./
2021-09-22T02:46:15 prefetch.2.9.3: 1) Downloading 'SRR8482567'...
观察该提示是 https 还是 fasp
2021-09-22T02:46:15 prefetch.2.9.3: Downloading via https...

3.4 下载参考序列:

Klebsiella pneumoniae MGH78578

基因组:NC_009648.1

https://www.ncbi.nlm.nih.gov/nuccore/NC_009648.1/

质粒:NC_009649.1

https://www.ncbi.nlm.nih.gov/nuccore/NC_009649

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档