在茫茫基因信息数据中,找到自己想要的信息,需要消耗很大的精力,重复性操作也很多,每天都在重复几百次上千次的复制粘贴删除。但是,新时代懒癌患者总是有招的,今天奉上提取genbank文件中序列、序列长度、分类信息以及产地等信息的Perl语言解析脚本。
当我们面对整个数据库,每个数据记录几千几万的碱基序列,想要从中提取出来你需要的片段,需要的不是努力勤奋的复制粘贴,而是想想“偷懒”的办法。
经过各种百度谷歌看教程,终于把这个过程写成了脚本,10天的活10秒完成,爽不爽,效率比复制粘贴超出好几倍。
口说无凭,先贴个结果吧:
结果以tsv格式存储,可以利用脚本进一步处理,或直接用excel打开筛选自己需要的信息,推荐使用数据透视表。
代码
副标题1
this is code
代码主体部分有些乱,主要是在刚接触脚本语言时候弄得,各种异常处理也并没有完善,放出来也能用,也是和大家交流下,发展新思路。最近已经改用python了欢迎一起交流。
“
领取专属 10元无门槛券
私享最新 技术干货