前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一文搞定参考基因组序列下载

一文搞定参考基因组序列下载

作者头像
阿凡亮
发布2020-04-14 14:41:29
2.8K0
发布2020-04-14 14:41:29
举报
文章被收录于专栏:生物信息学

点击上方蓝色字关注我们~

各位小伙伴我们又见面了,在接下来的日子我们会给大家带来超硬核知识点。请大家带好小板凳,一起认真做笔记吧。

生物信息学的分析很大一部分都是围绕序列展开,可以说序列分析催生了生物信息学。比如通过与参考基因组序列进行比对,检测各种变异;RNA-seq数据与参考基因组比对,进行定量。

今天给大家介绍如何下载某一个物种的参考基因组序列,分为浏览器版与命令行版2种方式。

浏览器版

通过NCBI的genome数据库下载。比如我要下载人类参考基因组序列,打开https://www.ncbi.nlm.nih.gov/genome ,在搜索框中输入human, 会出现很多关键词提示,我们选择第一个(这是human的双名法名字)如下图

点击搜索,返回的结果页面包括人基因组的各种基本信息,比如每一条染色体的大小、GC含量、基因数目、假基因数目、编码的蛋白质数目。当然我们的目的是下载参考基因组序列,其他信息先不管,结果页面最上面的部分显示了参考基因组的DNA,转录本,蛋白质三种类型的FASTA序列下载地址,如下所示

点击genome就可以下载了。细心的同学可能会问下载的基因组版本不是我想要的啊,的确,从这里下载的都是最新的版本。如果想要下载之前的版本,可以复制genome的链接地址,将地址后面两部分删除,即下面地址的红色部分

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz

得到的就是所有版本的目录,可以根据自己的需要进入不同版本的目录进行下载。

命令行版

第一步:

下载所有参考基因组组装情况的汇总信息:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt

第二步:

获取FTP下载地址并下载。这里根据物种的taxid取出FTP信息,human的taxid为9606,(每个物种都会有自己的taxid,可以去https://www.ncbi.nlm.nih.gov/taxonomy/搜索每个物种的taxid, 具体细节见文末)代码如下:

代码语言:javascript
复制
awk -F "\t" '$11=="latest" && $20~"^ftp:" && $7==9606{print $20}' assembly_summary_refseq.txt > 9606.txt 
awk 'BEGIN{FS=OFS="/";filesuffix="genomic.fna.gz"}{ftpdir=$0;asm=$10;file=asm"_"filesuffix;print ftpdir,file}' 9606.txt > 9606.ftpfilepath  
wget -c -i 9606.ftpfilepath #使用wget下载

备注:如何查找一个物种的taxid

第一步:打开网址https://www.ncbi.nlm.nih.gov/taxonomy/

第二步:输入物种名,例如输入human得到结果如下:

第三步:点击上图箭头所指链接,打开新页面后。观察地址栏最后的id=9606。其他物种可以通过类似的步骤获取其taxid

今天的分享就到这里,如果有什么问题请给我们留言吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生物信息学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档