前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新

可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新

作者头像
月小水长
发布2022-12-07 09:11:25
3850
发布2022-12-07 09:11:25
举报
文章被收录于专栏:月小水长月小水长

这是 月小水长 的第 135 篇原创干货

前阵子发布了 带 ip 属地,无 Cookie 微博话题自助抓取网站上线,可以实现脱离 Python 环境,直接在浏览器上抓取最新微博话题数据

大家反馈使用有两个使用痛点:

第一就是只能抓 10 页太少了。

第二是我想监控一个话题,5 分钟前抓取了一个热门话题,5分钟后再想抓取同一个话题,由于缓存机制的设计,会直接返回 5 分钟前抓取保存的结果 csv 文件,而不是抓取当前最新的微博。

痛点必须解决,安排上了,网站升级后部分截图如下。

默认配置和之前保持一样,可以去密钥获取地址获取最新密钥升级抓取配置,完成 page 升级和跳过缓存后抓取当前最新数据

获取本站点密钥后,新增 ip 属地,抓得更多,微博超级评论爬虫大更新中断可继续,10w+,无 cookie 微博评论抓取网站上线 等站点的密钥在爱发电平台上自动可见。

网站地址:

代码语言:javascript
复制
https://weibo-topic.buyixiao.xyz/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档