生信入门:使用shell脚本批量修改fasta文件中序列名字

从NCBI上下载Escherichia coli str. K-12 substr. MG1655的所有的基因序列

点击右边Send to,选中Coding Sequences,再点击Create File 就能下到序列如下:

如果序列的名字太长,希望简化一下名字,方便下游数据分析

举一个栗子,想使用“gene=”之后的基因缩写名字来重命名

可以使用shell中的SED命令完成

SED是一项Linux指令,功能同awk类似,差别在于,sed简单,对列处理的功能要差一些,awk的功能复杂,对列处理的功能比较强大。

也可以使用正则表达式来实现:

()是扩展正则表达式的元字符,sed软件默认识别基本正则表达式,-r :支持扩展表达式,后面被替换的内容中的\1就是取前面的括号里的内容了

查看结果,所有序列的名字都变为基因缩写名字。

感谢您的阅读,欢迎点赞、评论、支持和转发!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191011A03O7A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券