前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫:requests的headers该怎么填

Python爬虫:requests的headers该怎么填

原创
作者头像
taobao01221
发布2023-03-28 10:57:57
2K0
发布2023-03-28 10:57:57
举报
文章被收录于专栏:爬虫软件的使用方法

一、为什么要写headers?我们一般写的爬虫会默认向服务器发送爬取请求,而一般情况下网站是不允许被爬虫访问的,输出的text信息中会出现抱歉,无法访问等字眼。我们通过更改User-Agent字段则可以实现网站请求,实现网页应答。

二、 headers该怎么找?最简单的步骤如下:

1、打开你要爬虫的网页

2、按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3、按F5刷新网页

4、点击Network,再点击Doc

5、找到Headers,查看Request Headers的User-Agent字段,直接复制

6、将刚才复制的User-Agent字段构造成字典形式

界面显示与下图相似

headers中有很多内容,主要常用的就是user-agent 和 host,他们是以键对的形式展现出来,如果user-agent 以字典键对形式作为headers的内容,就可以反爬成功,就不需要其他键对;否则,需要加入headers下的更多键对形式。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档