Python使用标准库urllib模拟浏览器爬取网页内容

Python小屋屋主

发布于 2018-09-20 14:42:43

1.3K0

发布于 2018-09-20 14:42:43

文章被收录于专栏：Python小屋

爬取网页内容的第一步是分析目标网站源代码结构，确定自己要爬取的内容在哪里，这要求对HTML代码有一定了解，对于某些网站内容的爬取还需要具有一定的Javascript基础。但是，如果目标网站设置了反爬机制，就需要一些特殊的手段了，本文介绍一种使用爬虫程序模拟浏览器来对抗反爬机制的简单用法。

以下面的网页为例，使用浏览器可以正常浏览，也可以正常查看网页源代码。

然而，使用Python去读取网页源代码时却显示403错误，禁止访问。

使用urllib.request.urlopen()打开一个URL时，服务器端只会收到一个单纯的对于该页面访问的请求，但是服务器并不知道发送这个请求使用的浏览器、操作系统、硬件平台等信息，而缺失这些信息的请求往往都是非正常的访问，很可能是爬虫，然后拒绝访问，返回403错误。

对抗这种反爬机制比较简单的方式是，添加UserAgent信息，让程序假装自己是浏览器。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-29，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度