专栏首页Python小屋Python爬虫系列:判断目标网页编码的几种方法

Python爬虫系列:判断目标网页编码的几种方法

在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。

代码运行结果:

从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。

本文分享自微信公众号 - Python小屋(Python_xiaowu),作者:董付国

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python按元组中第一个字符串升序第二个字符串降序排序

    问题描述:假设有一个列表,里面包含若干元组,每个元组中有两个字符串,现在要求对列表中的元组进行排序,排序规则为:第一个字符串升序,如果第一个字符串相同则按第二个...

    Python小屋屋主
  • Python+matplotlib绘制极坐标柱状图(南丁格尔玫瑰图)

    Python小屋屋主
  • Python内置函数sorted()和列表方法sort()排序规则不得不说的事

    Python内置函数sorted()和列表方法sort()可以使用key参数指定排序规则,并且都是稳定排序,也就是说,对于指定规则不能涵盖的元素,本来谁在前面,...

    Python小屋屋主
  • Kibana源码剖析 —— savedSearch从读取到跳转

    持久化对象 Kibana中可以查询到很多保存的对象,他们都存储在es中一个叫做.kibana的索引中。 搜索 存储在type为search中; 图表 存储在ty...

    用户1154259
  • 针对SEO优化推广营销型网站建设该怎么样做?

    在建设网站前台时,尽可能使用有语义的code,用描述性的标签组织页面结构,可以提高搜索引擎对网站的可访问性,这也会使整个网站看起来很简洁。

    橙柚青
  • 网站漏洞检测 之网站后台webshell漏洞

    临近9月底,seacms官方升级海洋cms系统到9.95版本,我们SINE安全在对其源码进行网站漏洞检测的时候发现问题,可导致全局变量被覆盖,后台可以存在越权漏...

    技术分享达人
  • protobuf 语法 与 protocol-buffers 的使用

    protocol-buffers 是 node.js 平台对支持 protobuf 封装的三方模块,下面的例子都通过 protocol-buffers 的使用来...

    WahFung
  • 网站漏洞解决与修复办法之seacms系统

    临近9月底,seacms官方升级海洋cms系统到9.95版本,我们SINE安全在对其源码进行网站漏洞检测的时候发现问题,可导致全局变量被覆盖,后台可以存在越权漏...

    网站安全专家
  • 网站有恶意链接google广告被拒登 怎么办

    前几天,有一客户向我们SINE安全公司反映,网站在google上的推广已拒登,说什么网站存在恶意软件或垃圾软件,导致google广告无法上线,还发现网站从goo...

    技术分享达人
  • Keras/Python深度学习中的网格搜索超参数调优(下)

    用户1737318

扫码关注云+社区

领取腾讯云代金券