前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[931]产生 \ufeff 问题的原因及解决办法

[931]产生 \ufeff 问题的原因及解决办法

作者头像
周小董
发布2020-12-29 10:50:01
9840
发布2020-12-29 10:50:01
举报
文章被收录于专栏:python前行者

今天遇到以下问题:

代码语言:javascript
复制
name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8') as f:
	for i in f:
		fen = i.split(':')
		print(fen[0], fen[1])
		if fen[0].strip() == '诗名':
			name.append(fen[1].strip())
		print(name)

结果为:

代码语言:javascript
复制
诗名 贼退示官吏并序
[]

这是为什么呢?后来发现:

代码语言:javascript
复制
print(fen)

结果为:

代码语言:javascript
复制
['\ufeff诗名', '贼退示官吏并序\n']

\ufeff 这是哪来的呢?网上搜索后发现原来是文本保存时包含了BOM(Byte Order Mark,字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码)导致的,解决方法是使用 utf-8-sig 编码:

代码语言:javascript
复制
name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8-sig') as f:
	for i in f:
		fen = i.split(':')
		print(fen)
		if fen[0].strip() == '诗名':
			name.append(fen[1].strip())
		print(name)

结果为:

代码语言:javascript
复制
['诗名', '贼退示官吏并序\n']
['贼退示官吏并序']

以后保存 txt 文件时一定要注意不要带有 bom,如果已经包含了 bom 则可使用 notepad++ 编辑器转换为无BOM格式的文本文件。

utf-8与utf-8-sig两种编码格式的区别:

As UTF-8 is an 8-bit encoding no BOM is required and anyU+FEFF character in the decoded Unicode string (even if it’s the firstcharacter) is treated as a ZERO WIDTH NO-BREAK SPACE.

UTF-8以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序的问题,也因此它实际上并不需要BOM(“ByteOrder Mark”)。但是UTF-8 with BOM即utf-8-sig需要提供BOM。

参考:https://blog.csdn.net/qq_38882327/article/details/89637884 https://www.cnblogs.com/chongzi1990/p/8694883.html

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/12/10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • utf-8与utf-8-sig两种编码格式的区别:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档