前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >检测网页编码+读取网页内容 原

检测网页编码+读取网页内容 原

作者头像
双面人
发布2019-04-10 16:49:52
1.6K0
发布2019-04-10 16:49:52
举报
文章被收录于专栏:热爱IT

import chardet #字符集检测 import urllib.request # 网址 url = "http://www.baidu.com/"

def automatic_detect(url):      content=urllib.request.urlopen(url).read()      result=chardet.detect(content)     encoding=result['encoding']      return encoding 

print(url)  print(automatic_detect(url))

# 请求 request = urllib.request.Request(url) # 爬取结果 response = urllib.request.urlopen(request) data = response.read() # 设置解码方式 data = data.decode('utf-8')

# 打印爬取网页的各类信息 # 打印结果 print(data) print(type(response)) print(response.geturl()) print(response.info()) print(response.getcode())

需要安装chardet

(adsbygoogle = window.adsbygoogle || []).push({});

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/05/30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档