lncRNA实战项目-第三步-了解参考基因组及注释文件

下载原始测序数据:

在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProject找到SRA号,可以得到RNA-Seq的SRA的accession_list,共64组数据(SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/)。

得到SRA号就可以从NCBI的SRA或者EBI的ENA批量下载原始数据了,NCBI下载的原始数据是sra格式,需要用SRA Toolkit软件包转化为fastq数据格式,EBI下载的数据直接是fastq格式。

这里要注意SRR号并不是连续的,好像有人已经踩过这个坑了,我还是掉进去了,下了一个晚上的数据白瞎了。重新下载,这次只选择下载CC,OC两个脑区域的数据,刚好这两组数据的测序平台也一致。

#NCBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR404/SRR4042$i/SRR4042$i.sra;done
for ((i=393;i<=400;i++));do wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR401/SRR4015$i/SRR4015$i.sra;done

SRR4015393和SRR4015394测序质量不好,最好不要下载这两组数据练习。

#EBI下载
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_1.fastq.gz;done
for ((i=230;i<=237;i++));do wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR404/000/SRR4042$i/SRR4042$i\_2.fastq.gz;done

另外若觉得wget下载速度慢,可以选择其他下载方法(SRA、SAM以及Fastq文件高速下载方法):

  • 首选Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。
  • 其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令
  • 最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本

SRA数据库介绍

SRA(Sequence ReadArchive)数据库是存储二代测序的原始数据。

根据SRA数据产生的特点,将SRA数据分为四类: tudies-- 研究课题 xperiments-- 实验设计 uns-- 测序结果集 amples-- 样品信息 RA中数据结构的层次关系为:Studies->Experiments->Samples->Runs. tudies是就实验目标而言的,一个study 可能包含多个Experiment。 Experiments包含了Sample、DNA source、测序平台、数据处理等信息。 一个Experiment可能包含一个或多个runs。 uns 表示测序仪运行所产生的reads。 SRA数据库用不同的前缀加以区分: ERP或SRP表示Studies; RS 表示 Samples; RX 表示 Experiments; RR 表示 Runs;

下载基因组数据:

基因组数据:ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/ Ensemble基因组数据的形式包含以下2种: (1)masked/unmasked dna_sm- Repeats soft-masked (converts repeat nucleotidesto lowercase) dna_rm- Repeats masked (converts repeats to to N's) dna- No masking (2) toplevel / primary assembly toplevel- Includes haplotype information (notsure how aligners deal with this) primary_assembly– contains all toplevel sequenceregions excluding haplotypes and patches. This is best used for performingsequence similarity searches where patch and haplotype sequences would confuseanalysis.

根据README中的介绍,primary_assembly 和 toplevel相比不包含haplotype, 更适合用于比对,对于mask/un mask 通常选择softmask或者unmasked, 一般不用rm的。这个有一个讨论,几个人的回答并不一致,我还是模模糊糊,并不很明白。

macaca的基因组版本没有给出primary_assembly, 所以我下载了sm.toplevel和toplevel, 有时间去比较下会对下游分析有什么影响。

wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna_sm.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/fasta/macaca_mulatta/dna/Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz

下载注释数据:

注释数据:https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-91/gtf/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gtf.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/macaca_mulatta/Macaca_mulatta.Mmul_8.0.1.91.gff3.gz

参考资料:

SRA数据下载方法参考:https://www.ncbi.nlm.nih.gov/books/NBK158899/ SRA、SAM以及Fastq文件高速下载方法: http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/ SRA数据库介绍:https://www.shengxin.ren/article/16

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-02-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

肿瘤突变数据可视化神器-maftools

全部流程在R里面运行,maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作。

3315
来自专栏生信技能树

HiC数据分析实战(一)

来自于Tung B. K. Le et al. Science 2013 :https://www.ncbi.nlm.nih.gov/sra/?term=srr...

2543
来自专栏云时之间

机器学习资料合计(二)

2017年最后一天,继续把手头的资料分享给大家,希望大家2018都有一个美好的前程! 如果不能使用的,请在评论区告知(ps:最近在刷李飞飞CS231n2017,...

3656
来自专栏吉浦迅科技

【阿星的学习笔记(1)】如何在windows安裝Theano +Keras +Tensorflow並使用GPU加速訓練神經網路

今天开始,Lady向各位介绍一个朋友阿星(Ashing)以及他的机器学习读书笔记! ? 阿星也是我们手撕深度学习算法微信群的热心群友!接下来,Lady我也会陆续...

4356
来自专栏张善友的专栏

在MongoDB中实现聚合函数

随着组织产生的数据爆炸性增长,从GB到TB,从TB到PB,传统的数据库已经无法通过垂直扩展来管理如此之大数据。传统方法存储和处理数据的成本将会随着数据量增长而显...

2577
来自专栏帘卷西风的专栏

编写简易斜45度地图编辑器

      最近在研究cocos2dx的地图,最开始使用的是Tiled,这个编辑器做比较小的地图还是比较强大的,不过做大地图的时候,有一些功能不太方便并且有缺陷...

1033
来自专栏简书专栏

Python数据持久化-csv、excel篇

2018年7月4日笔记 学习目标: 1.会使用Python第三方模块操作CSV文件 2.会使用Python第三方模块操作EXCEL文件

1162
来自专栏张善友的专栏

Entity Framework Code First 支持存储过程

存储过程(Stored Procedure)不仅仅是将多得简直荒唐的业务逻辑塞入数据库的一种方式;它还是避免将多得简直荒唐的存储逻辑塞入应用程序层(applic...

1958
来自专栏北京马哥教育

给Python新人练手准备的十个简单趣味脚本

? 01. 目录文件分类 前言 有时候,想要对一个目录里的文件进行搜索或者分类操作往往是一件痛苦的事情,下面这个程序的目的是将目录下的文件树以某种分类规则进行...

43010
来自专栏FreeBuf

我是怎么打开车库门的:ASKOOK手动解码及重放

本文以打开无线控制的电动车库卷帘门为目标,深入研究了ASK/OOK的编/解码,并用树莓派+五元钱的五元钱的发射模块实现了打开车库门的各种姿势。本文适用于主流31...

29310

扫码关注云+社区