首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

教你一键下载同一属下不同模式种的16S rRNA基因序列

做我们微生物生态这行,一不小心就会发现一个潜在新种,很兴奋啊有没有!为了确定潜在新种的分类地位,自然要下载诸多模式种的16S rDNA序列来构建系统发育树,一株一株的手动下载,手好累啊有没有!

之前文章【画完gene map就过年啦!】有介绍过,python脚本需要用python解释器执行,安装python(本脚本需要使用python3)本期不再多说。

本期的脚本还需要另外两个python包,接下来介绍一下windows系统下python包的安装。

使用【win+R】快捷键打开“运行”,输入“cmd”打开命令行窗口,输入“pip install bs4”然后回车来安装“bs4”包,如下图所示,稍候片刻等待安装完成。如下图:

然后继续输入”pip install biopython”然后回车来安装“biopython”包,如下图:

下面是运行实例:

两个包安装完成后就可以运行脚本来下载我们指定属的模式种16S rDNA序列了。我们先来看一下脚本的参数:

-h显示帮助信息;

-i指定查询的属名,要求在LPSN中存在;

-l本脚本输出的log文件,接下来会有详细介绍;

-o指定输出的文件夹路径,如果文件夹不存在会自动创建。

脚本可以接受的输入包括两种方式:

(1)-i参数指定的属名,脚本会通过查询LPSN获取该属下的所有模式种信息,包括属种名,模式种编号,NCBI登录号,并将这些信息写入“属名.xls“文件中。然后通过NCBI的登录号前往NCBI下载该模式种的16SrDNA序列,并写入“属名.fa“文件中,同时将下载失败的模式种信息写入”属名.log“文件中。

(2)本程序生成的”属名.log”文件可以通过-l参数作为输入,脚本会再次尝试下载log中记录的下载失败的模式种。

需要注意的是,LPSN中给出的某些模式种的NCBI登录号为该模式种的全基因组序列,对于这种情况,脚本不会将序列写入“属名.fa“文件。下面是下载示例:

下载完成后会给出一个下载统计报告:

下载速度与网速和模式种个数有关,请耐心等待,另外,NCBI白天的连接速度要好于晚上,不知道这是否是个玄学问题,所以建议白天下载,如果遇到长时间(5分钟)界面无反应的情况可以尝试中断然后重新下载。

温馨提示:

本期校稿:卢瑟菌 李小圆

本期排版:李小圆

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180511G2440500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券