首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NCBI批量下载数据,省时又省力

对于大批量的数据下载,手动下载无疑是繁琐而又痛苦的,若不巧再碰上网站不稳定,小圆圈转半天就是不出来,此刻的人生必定是绝望的。

对此,小编深有体会,只70多个基因,就用了三四个小时来下载,费时又费力。还好,昨天Boss安利了一个python脚本,能够快速的从NCBI上搜索并下载所需的序列,再也不用这么费劲啦!今天呢小编就赶紧来跟大家分享一下,希望可以也能帮到大家!

NCBI批量搜索、下载序列

脚本代码:

帮助文档:

使用说明:

先来看一个示例:

该命令是从NCBI的蛋白质数据库下载所有黄精属中叶绿体上的PsaA基因的蛋白序列,输出格式为fasta。

-t:后面跟的是搜索条件,用双引号引起来。我们可以用布尔运算符和索引构建器更精确查找内容。先来介绍下布尔运算符,布尔运算符提供了一种生成精确查询的方法,可以产生定义良好的结果集。布尔运算符主要有3个,分别是AND、OR和NOT。它们的工作原理如下:

AND运算符是必须大写的,而OR和NOT不是必须的,但是建议三种运算符都用大写。

布尔运算符的运算顺序都是从左往右,例如:

表示查询除人类外的哺乳类动物中的promoters或response elements。而使用括号可以改变运算顺序,例如:

表示查询除人类和老鼠外的哺乳类动物中的promoters或response elements。

"[ ]"里的内容是索引构建器,可以解释前面搜索词的类型,如示例中的[Organism]表示前面的Polygonatum是一个有机体。下面是一些其它示例:

此外,还能进行范围的搜索,例如序列长度和发表日期。

-d:后面跟搜索数据库,nucleotide 或 protein,默认 nucleotide。

-r:后面跟输出格式,fasta 或 gb(genbank),默认gb。

-o:后面跟输出目录。

-n:后面跟输出文件名前缀。

从genbank提取序列

脚本代码:

帮助文档:

注意:-m 后输入的是一目录,该目录下可以有多个 genbank 文件,程序会批量读取。-i 后跟需提取的基因名称列表,格式如下:

genbank转gff3

最后一个脚本 bp_genbank2gff3.pl,此脚本可以根据 genbank 文件生成 gff3 文件,由Bioperl提供,安装并配置过Bioperl就可以直接使用。用法也很简单,bp_genbank2gff3.pl 后跟genbank 文件就可以啦!

好啦,以上三个脚本就是全部了,希望对小伙伴们有用 O(∩_∩)O~~

科技服务事业部 文案

图片源于网络 侵删

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180404A14M9O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券