批量从NCBI下载指定物种中指定基因的序列

在很多文献中比较常见的一种思路是:通过一个query序列在不同物种中进行blast搜索,获取基因组上大致的范围,然后用进行基因预测,如果是新测的物种,那么由于NCBI上没有这一物种的注释结果,我们只能这么做。但是如果我们要在已经发表的基因组中看某一个基因的情况的话,最好先在NCBI数据库中看下这个基因是否在这些基因组中已经注释出来。

因为无论我们自己的注释始终比不上NCBI的注释方法全面,因为NCBI的注释综合了NCBI中大量的数据,例如EST、cDNA等等,我们自己去注释的话没有这么多数据来源,所以对于

已经发表的基因组注释,我们的注释效果肯定比不上NCBI自己注释的效果。

比方说,如果我们要看这个基因在所有的已经发表的鸟类基因组中的分布情况,那么首先去NCBI上搜索这一基因:

由于鸡是鸟类中比较有代表性的物种,我们以鸡当中的这个基因作为query,点击右侧的,在中输入,意思是只需要序列,物种范围为,具体可参考(https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp#entrez_query)

在下方的参数设置中设置为最多250个结果,以得到尽量多的结果:

点击,登上差不多1分钟,NCBI就有结果了。然后选择:

点击下载完整序列(这样我们会得到这些匹配上结果的完整序列,而不止是比对上的部分):

但是这样一来就有了第二个问题:NCBI上的基因序列分为和,两者的区别在与,序列前后经常会有片段,而序列不包括UTR序列,因此cds才是蛋白序列所对应的核酸序列,也就是说经过翻译后可以成为蛋白序列。刚才的下载选项里只有完整序列即序列,我们现在如果只想获得cds序列的话,该怎么办?

我这里有一个曲线救国的方法:

先获得这些序列的编号,然后通过批量获得cds序列。

获得序列编号(其中seqdump.txt是刚刚下载的mRNA序列文件)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180905G20P8400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券