生信入门：使用shell脚本批量修改fasta文件中序列名字

文章来源：企鹅号 - 基因的生物信息学分析

从NCBI上下载Escherichia coli str. K-12 substr. MG1655的所有的基因序列

点击右边Send to，选中Coding Sequences，再点击Create File 就能下到序列如下：

如果序列的名字太长，希望简化一下名字，方便下游数据分析

举一个栗子，想使用“gene=”之后的基因缩写名字来重命名

可以使用shell中的SED命令完成

SED是一项Linux指令，功能同awk类似，差别在于，sed简单，对列处理的功能要差一些，awk的功能复杂，对列处理的功能比较强大。

也可以使用正则表达式来实现：

()是扩展正则表达式的元字符，sed软件默认识别基本正则表达式，-r ：支持扩展表达式，后面被替换的内容中的\1就是取前面的括号里的内容了

查看结果，所有序列的名字都变为基因缩写名字。

感谢您的阅读，欢迎点赞、评论、支持和转发！！

相关快讯