格式化genbank文件，提取序列、产地等信息

文章来源：企鹅号 - BioCodeNote

在茫茫基因信息数据中，找到自己想要的信息，需要消耗很大的精力，重复性操作也很多，每天都在重复几百次上千次的复制粘贴删除。但是，新时代懒癌患者总是有招的，今天奉上提取genbank文件中序列、序列长度、分类信息以及产地等信息的Perl语言解析脚本。

当我们面对整个数据库，每个数据记录几千几万的碱基序列，想要从中提取出来你需要的片段，需要的不是努力勤奋的复制粘贴，而是想想“偷懒”的办法。

经过各种百度谷歌看教程，终于把这个过程写成了脚本，10天的活10秒完成，爽不爽，效率比复制粘贴超出好几倍。

口说无凭，先贴个结果吧：

结果以tsv格式存储，可以利用脚本进一步处理，或直接用excel打开筛选自己需要的信息，推荐使用数据透视表。

代码

副标题1

this is code

代码主体部分有些乱，主要是在刚接触脚本语言时候弄得，各种异常处理也并没有完善，放出来也能用，也是和大家交流下，发展新思路。最近已经改用python了欢迎一起交流。

“

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货