生物信息神奇网站系列(九):批量下载序列

编者按

在《手把手教你生信分析平台搭建专栏》中,我们介绍过利用Aspera快速下载生物数据,例如下载某个物种基因组数据。但是如果想下载来自多个物种的不同基因序列,例如给定一个基因列表list,如何下载到这些序列呢?这就需要用到Batchentrez。

九:批量下载序列Batchentrez

https://www.ncbi.nlm.nih.gov/sites/batchentrez

批量下载基因序列有多种方式,可以通过编程实现,也可以通过固定模块例如bioperl,biopython等。如果不会编程,batchentrez就是最好的选择了。Entrez是NCBI官方的数据检索系统,Batch Entrez显然就是批量检索。越到这种问题,真的有人一条条序列下载,这样不仅浪费时间,而且容易出错。(我以前就是手工一条条序列下载)

1、首先登陆网站,首次使用请注意阅读说明和注意事项。

2、网站的使用其实并不难,首先选择要使用的数据库,然后点击选择上传ID文件,序列的ID可以是accession numbers或者identifiers。

3、这里我们利用GI号,下载8个基因的序列,文件格式如图所示。

4、数据库需要选择默认的,上传文件,点击Retrieve。

5、batchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,这里有5个检索不到序列。

6、点击图中蓝色链接,链接到新的页面,选中要下载的序列,然后在Sent to中进行选择,包括输出文件内容和文件格式等。

7、点击Create FIle,这样序列就下载好了。

Tips:1,、注意输入文件格式,ID只能使用accession numbers or identifiers。

2、选择的数据库要和输入的序列ID相一致。

3、序列ID后面不要加空格,注意不同系统中换行符问题。

---------- END ----------

(添加作者微信,备注好单位+姓名)

您可能还会感兴趣的

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180218G04OG000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券