大家好!我们都知道在进行生物信息分析的时候,会用到原始数据fastq文件。但是,我们想利用别人的测序数据进行重分析时,一般不能直接从NCBI数据库中下载到fastq文件,而是要先下载SRA数据。那么,如何能高效下载SRA数据呢,目前主要的方式包括5种:通过NCBI官方提供的SRA Toolkit工具进行下载;通过链接直接下载或Linux中的wget下载;利用aspera 高速下载;利用grabseqs 工具下载;运用python爬虫等工具进行辅助下载。这几种方式已有很多小伙伴发了帖子,想要使用哪种方式直接问度娘就好!
SRA(Sequence Read Archive)数据库是NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)旗下的一个专门用于存储高通量测序数据的子库。它收集了来自全球的原始测序数据,这些数据可以免费下载,对于生命科学研究人员来说,SRA数据库是一个宝贵的资源。
SRA数据库存储的数据类型包括:
许多杂志在论文发表时要求作者将高通量测序数据在SRA公开发布。上传到SRA的数据需要经过一定的准备和上传流程,包括:
研究人员可以通过多种方式下载SRA数据库中的序列数据,包括:
SRA数据库的数据结构基于以下四个概念构建:
SRA数据库的数据可以用于多种研究目的,包括但不限于:
SRA数据库为科研人员提供了一个强大的数据资源,有助于推动生命科学领域的研究进展。
今天,我们想给大家分享的是另一个自认为比较便捷,适用且快速的SRA 数据集下载方法,关键还是免费使用的(其实,就是通过链接直接使用idm软件下载的一种方式)!喜欢的家人们记得收藏哈!因为操作简单,所以我们直接步入正题:
Step 1:打开NCBI,在SRA下输入要下载的数据集PRJNA778726(示例数据集)
Step 2: 点击“Send to”,选择File → RunInfo → Create File
Step 3:数据下载到本地后,我们用Excle打开
你会发现这个表中包含了很多的内容,我们一般关注以下几列:Run,Download_path,ExperimerLibraryName,LibraryStrategy,LibraryLayout,Platform,ScientificName,SampleName和Sex等。需要定位到里面的下载链接哈
Step 4: 根据上述信息选择适合自己研究课题的样本数据,将下载路径分别复制到IDM软件中,进行断点下载。
Step 5: 查看下载结果和所用时长,支持断点下载,速度超快!
好啦!今天的分享就到这里了,内容很简单,希望我小小的分享能给您的科研道路带去一点余光!
文末推荐大家学习一下SRA(Sequence Read Archive)数据库提供了一系列的API(应用程序编程接口),允许研究人员和开发者以编程的方式访问和操作SRA中的数据。以下是一些常用的SRA数据库API:
prefetch
和fastq-dump
,这些工具可以用于自动化下载和转换SRA数据。Biopython
库。使用这些API时,用户需要遵守NCBI的使用条款和数据使用政策。具体的API使用方法和参数可能会随时间更新,因此建议直接查阅NCBI提供的官方文档或资源链接以获取最新信息。