前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >脚本分享—从GeneBank数据库批量下载序列

脚本分享—从GeneBank数据库批量下载序列

作者头像
用户1075469
发布2024-03-26 18:26:13
3330
发布2024-03-26 18:26:13
举报
文章被收录于专栏:科技记者

hello,hello!小伙伴们大家好,我是小编豆豆,好久没有给大家分享使用的脚本了,最近小编在一直在忙着16s整理数据库,需要下载大量物种的16s rRNA序列。

提到下载生物序列,大家第一时间就会想到NCBI GeneBank数据库,虽然我们可以使用浏览器从GeneBank数据库上下载序列及其注释信息,但是效率低下,对于几条和十几条序列大多人还是可以接受的,一旦序列增至成百上千条,使用浏览器下载序列能把人逼疯

今天小编就把我最近下载序列时用到的python代码分享给大家,希望小伙伴能够提升科研效率,多发paper。

安装python模块

代码语言:javascript
复制
# 使用pip安装
pip install biopython  

查看脚本帮助文档

代码语言:javascript
复制
python Download_genbank_file.py -h 
usage: Download_genbank_file.py [-h] -a ACCESSION [-o OUT_DIR]

This script was used to download gb or fasta file of cp genome from NCBI nucleotides database

optional arguments:
  -h, --help            show this help message and exit
  -a ACCESSION, --accession ACCESSION
                        file name contain accession number of cp genome you want to download
  -o OUT_DIR, --out_dir OUT_DIR
                        Specifies the output directory where the downloaded file will be saved. [Default:./]

脚本参数说明

-a 输入序列登录号文件,如下图所示

-o 结果文件输出路径,如果路径不存在脚本会自动创建,此参数可以省略,如果省略,结果文件会保存在当前路径下

实战演练

代码语言:javascript
复制
 python Download_genbank_file.py -a test1.txt -o res1
 python Download_genbank_file.py -a test2.txt -o res2

脚本运行过程

脚本运行结果

结果解读

1.genbank_sequence.fasta文件为fasta序列文件,结果如图:

2.genbank_annotation.tsv文件为序列注释文件,结果如图所示:

3.download_erro_genbank_accession.tsv如果提供序列的登录号在GeneBank中没有,则将这个登录号输出到这个文件中,方便使用浏览器进行校验,如图所示:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档