首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >去除文件中<feff>

去除文件中<feff>

作者头像
休辞醉倒
发布2019-07-25 10:50:50
4.5K0
发布2019-07-25 10:50:50
举报
文章被收录于专栏:休辞醉倒休辞醉倒休辞醉倒

最近生成的文件中出现了<feff>乱码,而且单个文件中出现不止一次,在vim中打该文件显示<feff>,而在idea中则显示一个“-”,对数据处理造成了极大的困扰,通过使用其它编辑器打开发现,Windows记事本不出现乱码,notepad++不出现乱码,那么极有可能是该乱码位置写了一些不可见的标志字符。

在Windows下使用winhex打开该文件查看乱码位置的十六进制格式数据为EF BB BF,通过百度了解到是UTF8的bom信息

尝试过用notepad++转换格式去除bom信息,无果,我生成的文件本身编码就是utf8 without bom,那么只好通过shell来去除这个烦人的字符:

sed -i 's/\xEF\xBB\xBF//g' filename

不过这个命令偶尔失效,在我一开始用它就不管用的情况下,我试了以下命令

sed -i 's/<feff>//g' filename

成了!

不过命令2只成功了1次,之后再用命令1就完全o**k了。玄学问题。。。

命令详解:

sed的命令格式: sed [-nefri] [动作]

选项与参数:

-n:使用安静(silent)模式。在一般sed的动作中,所有来自stdin的数据一般都会被列出到终端上,但如果加上-n参数后,则只有经过sed特殊 处理的那一行(或动作)才会被列出来。

-e:直接在命令行模式上进行sed的动作编辑

-f:直接将sed的动作写在一个文件内, -f filename则可以运行filename内的sed动作

-r:sed的动作支持的是延伸型正则表达式语法(默认是基础正则表达式语法)

-i:直接修改读取的文件内容,而不是输出到终端

function:

a:新增

c:取代

d:删除

i:插入

p:列印

s:取代 直接进行取代的工作,通常搭配正则表达式

sed -i 就是直接对文本文件进行操作

sed -i 's/原字符串/新字符串'  /home/1.md   #只替换一个
sed -i 's/原字符串/新字符串/g' /home/1.md   #全部替换

参考资料:

sed -i命令详解

UTF8最好不带BOM,附许多经典评论

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档