前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python+urllib携带Cookie验证信息使用POST方式爬取网页数据

Python+urllib携带Cookie验证信息使用POST方式爬取网页数据

作者头像
Python小屋屋主
发布2022-04-13 14:48:32
9140
发布2022-04-13 14:48:32
举报
文章被收录于专栏:Python小屋Python小屋

任务描述:

编写Python程序,使用标准库urllib+re采集“2024年普通高校招生专业(专业类)选考科目要求”中各高校选考科目要求。

之前分享过采集该网站信息的两篇文章,详见:1)Python爬取2021年拟在山东招生普通高校专业(类)选考科目要求;2)Python爬取并简单分析2024年普通高校招生专业(专业类)选考科目要求

该网站近期进行了改版,使得之前的代码无法正确运行了,主要改动有两处:1)增加了对Cookie的验证;2)提交信息时额外增加了一个字段。

如果客户端发起请求时没有提供Cookie数据,会被服务器阻止访问,无法正常读取到网页内容,但不会引发异常。表现为代码可以运行但得不到任何结果,如下图,

如果客户端发起请求时没有提供所有必需的参数字段,服务器无法识别请求对象,阻止访问并提示400错误,这样的错误一般是客户端提供的请求不合法和格式不对造成的,例如下图,

详细步骤:

1)使用Chrome浏览器打开目标网站https://xkkm.sdzk.cn/web/xx.html,鼠标单击右上角按钮(1),依次展开“更多工具”(2)==>“开发者工具”(3),如下图,

2)依次展开“network”(1)==>“Doc”(2),然后刷新网页(3),再在右侧窗口中选择文件(4)==>“Headers”(5)==>“Cookie”(6),鼠标右键,选择“复制值”,后面代码中要用到这里复制的内容。

3)修改之前的代码,增加Cookie验证和额外字段,修改后代码如图。代码仅用于技术研究与交流,若用于非法用途,后果自负。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档