前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么你的话题爬虫 topic 文件夹总是空的

为什么你的话题爬虫 topic 文件夹总是空的

作者头像
月小水长
发布2020-05-26 22:35:38
7750
发布2020-05-26 22:35:38
举报
文章被收录于专栏:月小水长月小水长

话题爬虫 WeiboTopicScrapy.py 开源以来,收到最多的反馈就是:为什么我爬了那么久,我的 topic 文件总是没有 csv 文件生成?

其实程序一运行起来,没有在控制台打印出每一页微博的具体信息,就可以断定你的操作方式出了问题,不必等上十几二十分钟。

我总结了话题爬虫所有可能的错误及解决办法,在此统一说明。

cookie 复制错了

话题爬虫是针对 weibo.cn 的,你需要在 weibo.cn 站的 login 页复制 cookie。

cookie 应该是包含 SUB 这个关键字段的,如果你复制了 m 站 cookie 或者没填 cookie 或者乱填 cookie,那么会出现以下错误:

cookie 过期了

这个错误最明显的特征就是,我明明以前成功运行过的,今天运行却出现了下面这样的问题:

此时只需要重新去 weibo.cn 复制 cookie 就行。

cookie 没有过期还是出现了和 cookie 过期一样的空白

这个错误和 cookie 过期的差异在于,通常是在页码很大,比如 100 以上的情况,这个时候,有两个原因:

  • 本次话题搜索的结果全部下载下来了,直接关掉程序就行。
  • 一次搜索最多只能 100+ 页,如果把时间段切分成最小单位,即逐天搜索,如果总结果有几千页,我们可以修改 413 行处的代码:for page in range(1, pageNum): ,比如第一次 130 空白了,下次运行前,把这个 1 改成 130。

修改了一点小 Bug

当 filter=0 即抓取所有微博时,保存的 csv 文件表头和表格内容会错位,现已修复并推送 Github。

点击阅读原文直达最新的 WeiboTopicScrapy 的 Github 地址。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 话题爬虫 WeiboTopicScrapy.py 开源以来,收到最多的反馈就是:为什么我爬了那么久,我的 topic 文件总是没有 csv 文件生成?
  • cookie 复制错了
  • cookie 过期了
  • cookie 没有过期还是出现了和 cookie 过期一样的空白
  • 修改了一点小 Bug
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档