前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python写的爬虫,抓取百度的搜索结果,被屏蔽了怎么办?

python写的爬虫,抓取百度的搜索结果,被屏蔽了怎么办?

原创
作者头像
阿秋数据采集
发布2023-05-09 17:46:18
6430
发布2023-05-09 17:46:18
举报
文章被收录于专栏:HTTP教程HTTP教程
img
img

某乎上有个热门话题,引起了很大的讨论。

这个问题通常是由于频繁的请求导致百度的反爬虫机制触发了验证码的保护机制。

解决办法无非是那几套流程走一遍。

img
img

1.增加请求的时间间隔

通过在每个请求之间增加一些时间间隔,可以降低请求频率,从而避免被反爬虫机制检测到。例如,可以使用time模块中的sleep函数在每个请求之间添加一定的延迟。

2.修改请求头信息

百度反爬虫机制通常会检测请求头信息,您可以尝试修改请求头信息中的User-Agent、Referer等参数来模拟真实的浏览器行为,减少被检测到的概率。例如,可以使用fake_useragent库来生成随机的User-Agent。

3.使用Selenium等工具

Selenium是一款自动化测试工具,可以模拟真实的浏览器行为来进行爬取。通过使用Selenium可以避免被反爬虫机制检测到,但是相对来说速度较慢。

4.使用优质的HTTP代理

虽然这位同学说已经更换过HTTP代理了,但实际上这个HTTP代理是否优质,是否高匿名,是否节点够广,这些都不知道。也许你这家的质量不是很好呢,毕竟HTTP大厂如某麻都很多人骂,青果、快代理这种后起之秀反而成为越来越多人的选择。

建议购买这些HTTP代理之前,先入手测试一下,我看基本上很多厂商都有提供测试服务。不说别的,看我测试青果网络的,视频放不上来,放个截图凑合看:

img
img

总的来说还行,因为我们项目要的量比较大,年底又跑去泉州他们公司考察了一波。他们还给我们定制了方案,基本上成本这一块是控下来了,不过这家价格总体而言本身就是偏低,好在质量OK,算的上挖到宝了?

img
img

当然也可以去看看市面上的另外那些家啦,总的来说量小靠测试,量大,那就测试+考察吧。多测试几家,好有个对比。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.增加请求的时间间隔
  • 2.修改请求头信息
  • 3.使用Selenium等工具
  • 4.使用优质的HTTP代理
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档