从NCBI上下载Escherichia coli str. K-12 substr. MG1655的所有的基因序列
点击右边Send to,选中Coding Sequences,再点击Create File 就能下到序列如下:
如果序列的名字太长,希望简化一下名字,方便下游数据分析
举一个栗子,想使用“gene=”之后的基因缩写名字来重命名
可以使用shell中的SED命令完成
SED是一项Linux指令,功能同awk类似,差别在于,sed简单,对列处理的功能要差一些,awk的功能复杂,对列处理的功能比较强大。
也可以使用正则表达式来实现:
()是扩展正则表达式的元字符,sed软件默认识别基本正则表达式,-r :支持扩展表达式,后面被替换的内容中的\1就是取前面的括号里的内容了
查看结果,所有序列的名字都变为基因缩写名字。
感谢您的阅读,欢迎点赞、评论、支持和转发!!
领取专属 10元无门槛券
私享最新 技术干货