前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在获取的页面中有的是网页中既含有utf-8,还有gb312,gbk,出乱码结局方法解决方法

在获取的页面中有的是网页中既含有utf-8,还有gb312,gbk,出乱码结局方法解决方法

作者头像
知识浅谈
发布2020-03-24 17:22:43
8290
发布2020-03-24 17:22:43
举报
文章被收录于专栏:分享学习分享学习
代码语言:javascript
复制
#coding:utf-8 
""" 
在开发爬虫过程中,中文网页编码有的是utf-8,有的是gb2312,有的是gbk等等。 
如何取得网页的编码,用这个库最方便。 
用这个chardet库,可以获取网页的编码 
chardet下载地址https://pypi.python.org/pypi/chardet/ 

python培训班暑假班和周末班 
http://www.010dm.com/xflml/3069.html 

chardet安装的方法,先解压,到解压后的目录中运行 
python setup.py install 
""" 


import chardet,urllib2 
#抓取网页html 
line = "http://www.***.com" 
html_1 = urllib2.urlopen(line,timeout=30).read() 

mychar = chardet.detect(html_1) 

bianma = mychar['encoding'] 
#print bianma 
if bianma == 'utf-8' or bianma == 'UTF-8': 
#html=html.decode('utf-8','ignore').encode('utf-8') 
html=html_1 
elif bianma == 'gbk' or bianma == 'GBK' : 
html =html_1.decode('gbk','ignore').encode('utf-8') 
elif bianma == 'gb2312' : 
html =html_1.decode('gb2312','ignore').encode('utf-8') 
有以上处理,整个html就不会是乱码。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档