前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python之chardet库

python之chardet库

作者头像
机器学习和大数据挖掘
发布2019-07-02 10:45:46
6610
发布2019-07-02 10:45:46
举报
文章被收录于专栏:数据挖掘数据挖掘

chardet库是python的字符编码检测器,能够检测出各种编码的类型,例如:

代码语言:javascript
复制
1 import chardet
2 import urllib.request
3 
4 testdata = urllib.request.urlopen('http://m2.cn.bing.com/').read()
5 print(chardet.detect(testdata))

运行结果:

代码语言:javascript
复制
{'confidence': 0.99, 'encoding': 'utf-8'}

翻译一下就是:

代码语言:javascript
复制
{'精准度': 99%, 'encoding(编码形式)': 'utf-8'}

没见识到这个库之前所有编码纯属自己的记忆:

代码语言:javascript
复制
# unicode_escape
\u4e2d\u56fd
# gbk或者utf-8
\xd6\xd0\xb9\xfa
中国
# urlencode
%e4%b8%ad%e5%9b%bd
# Gb2312
%d6%d0%b9%fa

这些编码纯属需要眼睛辨认再去网上查找编码

现在发现了chardet这个库后方便了很多  

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-08-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档