其实程序一运行起来,没有在控制台打印出每一页微博的具体信息,就可以断定你的操作方式出了问题,不必等上十几二十分钟。
我总结了话题爬虫所有可能的错误及解决办法,在此统一说明。
话题爬虫是针对 weibo.cn 的,你需要在 weibo.cn 站的 login 页复制 cookie。
cookie 应该是包含 SUB
这个关键字段的,如果你复制了 m 站 cookie 或者没填 cookie 或者乱填 cookie,那么会出现以下错误:
这个错误最明显的特征就是,我明明以前成功运行过的,今天运行却出现了下面这样的问题:
此时只需要重新去 weibo.cn 复制 cookie 就行。
这个错误和 cookie 过期的差异在于,通常是在页码很大,比如 100 以上的情况,这个时候,有两个原因:
当 filter=0 即抓取所有微博时,保存的 csv 文件表头和表格内容会错位,现已修复并推送 Github。
点击阅读原文直达最新的 WeiboTopicScrapy 的 Github 地址。