前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用标准库urllib模拟浏览器爬取网页内容

Python使用标准库urllib模拟浏览器爬取网页内容

作者头像
Python小屋屋主
发布2018-09-20 14:42:43
1.3K0
发布2018-09-20 14:42:43
举报
文章被收录于专栏:Python小屋

爬取网页内容的第一步是分析目标网站源代码结构,确定自己要爬取的内容在哪里,这要求对HTML代码有一定了解,对于某些网站内容的爬取还需要具有一定的Javascript基础。但是,如果目标网站设置了反爬机制,就需要一些特殊的手段了,本文介绍一种使用爬虫程序模拟浏览器来对抗反爬机制的简单用法。

以下面的网页为例,使用浏览器可以正常浏览,也可以正常查看网页源代码。

然而,使用Python去读取网页源代码时却显示403错误,禁止访问。

使用urllib.request.urlopen()打开一个URL时,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器、操作系统、硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,很可能是爬虫,然后拒绝访问,返回403错误。

对抗这种反爬机制比较简单的方式是,添加UserAgent信息,让程序假装自己是浏览器。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档