前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中断可继续,10w+,无 cookie 微博评论抓取网站上线

中断可继续,10w+,无 cookie 微博评论抓取网站上线

作者头像
月小水长
发布2022-09-03 09:36:15
4070
发布2022-09-03 09:36:15
举报
文章被收录于专栏:月小水长月小水长

这是 月小水长 的第 131 篇原创干货

补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。

无 cookie

不需要 cookie或者说对于使用者来说,感受不到 cookie 的存在,即可 run,这是最基本的特征。

评论上限可达 10w+

此处抓取的评论不是同步从 weibo.com 抓取的,因此同一条微博的,抓取的结果和 weibo.com 看到的评论有时差,笔者觉得无伤大雅。

和微博话题只能最近几十页的数据相比,无 cookie 评论的上限大概在 10w+ 这个量级,实测最多抓到 30w。能抓到 10w+,不是说网页上显示有 10w 条就能抓到 10w 条,

一来博主可能精选评论,二来微博会过滤,评论的数量显示只会往多了显示;除开这些原因,显示 100w+ 评论大概率能抓到 10w+

字段丰富

抓取保存的 csv 文件包括评论时间、评论文本、评论 ID、评论点赞数等评论本身信息和评论用户名、评论用户关注数、粉丝数、性别、所在地、是否认证等评论用户信息。

可以从上次中断的继续抓取

字面意思,比如这次抓到 1w 条停了,下次可以继续上次停的地方继续抓取,这是自动配置的,使用者不用设置即可自动继续。一次抓取结束可以下载当前的结果文件。

共享数据集

其他人抓取好一个微博 30w 的评论数据集,如果你有同样的需求,输入微博 id 后,无需抓取,可以直接下载。微博 id 可以是纯数字 id,也可以是数字字母混合 id,它会自动转化成纯数字 id。最后的结果文件也是按照 {数字id}.csv 这样的格式命名的。

使用指南

网站全量开启 https 安全访问,地址为:

代码语言:javascript
复制
https://weibo-comment-crawl.buyixiao.xyz/

网站对所有人开放,但执行抓取需要密钥,密钥获取地址

代码语言:javascript
复制
https://afdian.net/p/4c1ad92aeaf311ec971752540025c377

为了服务器和网站的持续稳健运行,密钥设置为付费获取,一旦泄露随时可能更新。本网站适合长期有大量评论抓取需求或者特定字段要求的读者使用,如果至是一次性使用,建议使用 新增 ip 属地,抓得更多,微博超级评论爬虫大更新。它是有 cookie 的,抓到的评论基本和 weibo.com 看到的保持一致。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 这是 月小水长 的第 131 篇原创干货
  • 无 cookie
  • 评论上限可达 10w+
  • 字段丰富
  • 可以从上次中断的继续抓取
  • 共享数据集
  • 使用指南
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档