首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >免 cookie 微博话题爬虫发布

免 cookie 微博话题爬虫发布

作者头像
月小水长
发布2021-09-24 11:17:59
5550
发布2021-09-24 11:17:59
举报
文章被收录于专栏:月小水长月小水长

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下

“在看”和“赞”。

免 cookie cn 微博话题爬虫

大家好,我是刚下班的并更新了微博话题爬虫的月小水长。

首先是今天的主人公:不需要复制 cookie 的话题爬虫,它是针对 weibo.cn 这个站点的,只需要改动目标话题,就可以开始爬取了,代码已经放到 WeiboSuperSpider 的 Github 仓库了。在功能独立版文件夹下,取名 WeiboCnTopicSpiderWithoutCookie

https://github.com/Python3Spiders/WeiboSuperSpider

或者点击文末阅读原文即可直达源代码。

com 话题爬虫 BugFix

其次是更新了 WeiboCom 话题爬虫的 bug,这周刚发布 2021 微博爬虫更新及使用指南 ,有读者留言反馈了以下的 bug

现今暂时修复,但是爬虫不会自动停下来了,需手动关停。修复的爬虫文件,获取方式依然在 2021 新版微博话题爬虫发布,回复同样的口令即可获取更新。

com 和 cn 话题爬虫对比

对于话题搜索这个爬虫,在 weibo.com 和 weibo.cn 这两个站点都可以爬取;

  1. weibo.cn 的好处是不需要 cookie,测试发现同一个话题 cn 站数据更丰富些; 但是缺点也很明显,不支持高级搜索;
  2. weibo.com 的好处是筛选条件更加丰富,时间段颗粒度更细,最细达到了以小时为单位; 缺点是需要经常手动更换 cookie;

这里给新开的微信小店留个位置,感兴趣的可以看看~

谢谢大家关注,微博爬虫将持续更新,明早或周一更新微博用户信息爬虫~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档