格式化genbank文件,提取序列、产地等信息

在茫茫基因信息数据中,找到自己想要的信息,需要消耗很大的精力,重复性操作也很多,每天都在重复几百次上千次的复制粘贴删除。但是,新时代懒癌患者总是有招的,今天奉上提取genbank文件中序列、序列长度、分类信息以及产地等信息的Perl语言解析脚本。

当我们面对整个数据库,每个数据记录几千几万的碱基序列,想要从中提取出来你需要的片段,需要的不是努力勤奋的复制粘贴,而是想想“偷懒”的办法。

经过各种百度谷歌看教程,终于把这个过程写成了脚本,10天的活10秒完成,爽不爽,效率比复制粘贴超出好几倍。

口说无凭,先贴个结果吧:

结果以tsv格式存储,可以利用脚本进一步处理,或直接用excel打开筛选自己需要的信息,推荐使用数据透视表。

代码

副标题1

this is code

代码主体部分有些乱,主要是在刚接触脚本语言时候弄得,各种异常处理也并没有完善,放出来也能用,也是和大家交流下,发展新思路。最近已经改用python了欢迎一起交流。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181010G1WXD100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券