首页
学习
活动
专区
工具
TVP
发布

月小水长

专栏作者
138
文章
164580
阅读量
36
订阅数
微博自助采集及可视化网站汇总
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023-01-30
6110
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
前阵子发布了 带 ip 属地,无 Cookie 微博话题自助抓取网站上线,可以实现脱离 Python 环境,直接在浏览器上抓取最新微博话题数据。
月小水长
2022-12-07
3830
中断可继续,10w+,无 cookie 微博评论抓取网站上线
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
月小水长
2022-09-03
3990
【开源】无需 Cookie,把 Python 微博爬虫改写成 Chrome 插件了
然后插件就会定时 20s 去轮询这个人的微博状态,一有它的最新微博就会有桌面通知。
月小水长
2022-01-20
8550
【开源】微博超话相册下载及超话活跃粉丝抓取
里区分了话题爬虫和关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而微博超话又不等同于一般的微博话题,它具有独立的页面地址和样式。
月小水长
2022-01-20
1.2K0
数据浅谈微博评论异常流量和水军账号
网页显示有近 18w 条微博,实际抓取去重后有 10w 稍有余的数据,包括根评论和回复,后文分析评论时,仅针对分析发博一天内的评论。抓取保存的评论字段信息如下:
月小水长
2021-12-15
1.6K0
【开放源代码】集齐转评赞!微博点赞详细信息抓取
其中 lid 为微博赞的 id,user_verfied_type 为给该微博点赞的用户的认证类型,-1 就是没用认证,普通用户。其他认证类型的对应关系如下:
月小水长
2021-11-16
1.5K0
【开放源代码】微博搜索用户爬虫
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2021-10-26
9820
[开放源代码] 爬取微博用户所有文章的爬虫
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2021-10-26
2.3K0
微博位置爬虫发布
这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理。
月小水长
2021-09-24
6320
超级方便的微博用户信息爬虫
代码全部开源在 WeiboSuperSpider 的 github 仓库地址,功能独立版文件夹下,取名 WeiboUserInfoSpider,
月小水长
2021-09-24
1.8K0
免 cookie 微博话题爬虫发布
首先是今天的主人公:不需要复制 cookie 的话题爬虫,它是针对 weibo.cn 这个站点的,只需要改动目标话题,就可以开始爬取了,代码已经放到 WeiboSuperSpider 的 Github 仓库了。在功能独立版文件夹下,取名 WeiboCnTopicSpiderWithoutCookie。
月小水长
2021-09-24
5550
2021 微博爬虫更新及使用指南
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2021-09-24
1.2K0
开源豆瓣系列爬虫之用户广播爬虫
应不住读者的请求,打算新开一个豆瓣系列的爬虫,主要是为了爬取豆瓣的小组和用户信息,并且全部开源出来。
月小水长
2021-09-02
7890
微博爬虫出错居然还和网络运营商有关
在几个月以前,这个问题的解决办法是因为登录的微博开启了双重登录验证,只需要在微博 app 或者 web 的设置、账号安全、关闭双重登录验证即可,但是近期这个解决办法也失效了,我调试程序发现,com 微博登录的充分必要条件是手机微博扫码登录,可以直接扫码登陆,输入账号密码和验证码之后,跳转的还是那个扫码登录界面,可以说是非常智障的设计了,这不是强迫人下一个微博 app 吗。(此处有看不见的脏话)
月小水长
2020-09-01
9400
一个爬取用户所有微博的爬虫,还能断网续爬那种
熟悉这个微博超级话题爬虫系列的都知道,我已经停止对有GUI功能集中版本的维护了,集中精力维护无GUI版本功能独立版本的开发和维护,并且保证每个功能都是最小可用产品且互不干扰。但是功能独立版本一直有个历史遗留问题:没有将集中版本中爬取每个用户的所有微博的功能独立出来,刚好今天有空,我也觉得是时候写点东西了,于是就有了这篇文章。
月小水长
2020-08-18
5970
为什么你的话题爬虫 topic 文件夹总是空的
其实程序一运行起来,没有在控制台打印出每一页微博的具体信息,就可以断定你的操作方式出了问题,不必等上十几二十分钟。
月小水长
2020-05-26
7700
微博爬虫重要更新:根据话题爬虫的结果批量化爬评论
在公众号以前的一篇文章 微博爬虫综述、错误汇总、Q&A 中,阐述了微博爬虫的不同目标站点之间的差异,并明确了我的微博爬虫的站点策略。
月小水长
2020-05-26
1.1K0
顺手写了个 B 站视频下载器
这几天沉迷于 B 站的某些剪辑,洗脑循环中,如 up 主 上天下 的《白蛇:缘起》无对白版片尾曲《前世今生》完整版4分06秒 演唱:龚笑笑,链接如下
月小水长
2020-04-24
9290
微博话题爬虫更新:突破 50 页限制
在上一次更新至今,又出现了不少了 bug,昨天趁着有空更新了代码,这次的更新主要做了三件事
月小水长
2020-02-13
4.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档