专栏首页月小水长微博话题爬虫更新:突破 50 页限制

微博话题爬虫更新:突破 50 页限制

在上一次更新至今,又出现了不少了 bug,昨天趁着有空更新了代码,这次的更新主要做了三件事

1、解决了微博话题爬虫失效的问题

2、突破了微博话题爬虫只能爬取前50页的限制

3、重新组织了代码,具体可见下图

原来的带有界面的用户、话题、评论爬虫更新后转移到项目根目录下的 GUI 功能集中版 文件夹下,这部分的代码主要是 GUI.py 源代码,里面分别有 WeiboSearchScrapy、WeiboUserScrapy、WeiboUserScrapy 三个类,以及其他文件夹下 ListModel、ListView 等界面类,以及负责在业务逻辑和界面之间传送消息的信号类。如果之前 clone 过该项目,只需要复制功能集中版下的 GUI.py 文件并覆盖之前的 GUI.py 运行即可。

如果是第一次使用该项目,建议直接 clone 无 GUI 功能独立版 文件夹下的代码,该文件夹下一个 py 文件对应着一个功能爬虫,目前有两个文件

WeiboCommentScrapy.py 爬取评论

WeiboTopicScrapy.py 爬取指定关键词的所有微博,突破了 50 页的限制,可指定截至日期

因为每次微博更新,爬虫就要做相应更新,然后一些逻辑的变化导致 GUI 界面也要修改,一个产品很多代码都是浪费在了界面的编写上,为了减轻更新压力,将主要任务放在爬虫逻辑的更新上,这也是我为什么单独剥离功能代码的初衷。

更新的 WeiboTopicScrapy 类新增了一个参数 limit_date

WeiboTopicScrapy(keyword='特朗普',filter=0,limit_date='2020-01-10')

filter=0 表示爬取所有微博,filter=1 表示只爬取原创微博;limit_date 指明只抓取 2020-01-10 至今的微博;上述新建类的语句表明开启一个抓取特朗普话题下 2020-01-10 至今的所有微博的任务。

代码最前面需要替换成你自己 weibo.cn 的 Cookie,关于 Cookie 怎么获取,可以参考微博全站爬虫修复更新啦!!!的最后面说明。

代码已更新到 Github,阅读原文一键直达。

该项目不定期更新,请持续关注,如有需求请在本公众号留言,回复 社群 可进粉丝交流群,和 200+ 人一起 day day up

本文分享自微信公众号 - 月小水长(inspurer),作者:BuyiXiao

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 微博爬虫综述、错误汇总、Q&A

    微博爬虫主要有两个导向,一个是微博内容的爬虫,其目的字段包括微博文本、发布者、转发/评论/点赞数等,另一个是微博评论的爬虫,其目的字段主要是评论文本和评论者。

    月小水长
  • 用户、话题、评论一网打尽,分享一个最强微博爬虫

    微博向来是一个极好的吃瓜圣地,为了获取微博上行行色色的数据,微博相关的爬虫也是层出不穷,因为无论是运营者还是数据分析从业者都或多或少需要微博数据,我的许多朋友也...

    月小水长
  • 微博全站爬虫修复更新啦!!!

    说一声抱歉,当时那段时间我实在太忙,就没有立刻解决,但是记在备忘录上,但是今天下午终于可以有空闲了,就着手解决了这个问题;问题主要是由微博接口和网页结构的变化引...

    月小水长
  • Python|简单理解网络爬虫带你入门

    入门编程的小白们总是对计算机领域的各种“黑科技”感到好奇,其中“爬虫”对于小白来说算是一个高大上的技术,所以今天我将为大家揭开爬虫神秘的面纱,同时带领大家和我一...

    算法与编程之美
  • 数据化时代,爬虫工程师才是真正“扛把子”

    就像在饭店里,你点了土豆并且能吃到,是因为有人帮你在土豆、萝卜、西红柿等中找到土豆,也有人把土豆拿到你桌上。在网络上,这两个动作都是由一位叫做爬虫的同学帮你实现...

    数据猿
  • Scrapy爬虫学习记录

    昨天休息的时候偶然发现了一个的球鞋网站,上面有很多关于球鞋的资讯。于是,决定现学现卖,学习scrapy把数据都给爬下来。

    100000798482
  • 微博爬虫综述、错误汇总、Q&A

    微博爬虫主要有两个导向,一个是微博内容的爬虫,其目的字段包括微博文本、发布者、转发/评论/点赞数等,另一个是微博评论的爬虫,其目的字段主要是评论文本和评论者。

    月小水长
  • 爬虫管理平台Crawlab v0.3.0发布(Golang版本)

    基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Java、Go、PHP等多种编程语言以及多种爬虫框架。

    MarvinZhang
  • Python 网络爬虫概述

    几乎每个网站都有一个名为robots.txt的文档,当然也有有些网站没有设定。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就...

    Python知识大全
  • 为爬虫获取登录cookies:登录的恩恩怨怨

    讲到的新闻爬虫,是基本不受目标服务器限制的爬虫,技术上的挑战主要在抓取任务的管理、分配,并发的使用,提高效率等方面。而实际中,不同抓取目标的爬虫会遇到很多阻碍,...

    一墨编程学习

扫码关注云+社区

领取腾讯云代金券