首页
学习
活动
专区
工具
TVP
发布

月小水长

专栏作者
138
文章
167109
阅读量
36
订阅数
Python 源代码 | 2024 版抖音评论采集爬虫
当时的重点只是讲 hook 这种方法,并不是采集抖音评论,有点为了这瓶醋包了这碗饺子的意思在里面。
月小水长
2024-01-12
2.5K6
源代码和工具 | 2023 bilibili 视频弹幕爬虫,单条视频最多可爬取 10000 条弹幕
书接上回,b 站除了评论区出人才,弹幕也是 b 站文化富集之地,所以今天分享的是 b 站弹幕爬虫,文末同时附上源代码和 exe 工具链接。
月小水长
2023-08-17
1K0
源代码和工具 | 2023 bilibili 视频评论爬虫,单条视频最多可爬取 10000 条评论
我帮一些没玩过 b 站的朋友问了 ChatGPT,b 站是什么,它是这么回答我的。
月小水长
2023-08-17
2.1K5
数据集 | 2023 bilibili 视频弹幕数据集,以「木鱼水心」解说视频为例
今天分享的是 b 站弹幕数据集,使用 b 站弹幕爬虫,抓取 b 站著名百大 up 主「木鱼水心」关于三国演义、水浒传、红楼梦这些四大名著最火的几个视频的弹幕列表。
月小水长
2023-07-03
3950
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
不过由于某些微博的转发可能多达十万甚至百万,有必要对网络规模作出限制,这里采取的做法是限制每一层节点最多为 N 个。
月小水长
2023-07-03
3440
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
月小水长
2023-07-03
1.9K0
【2023 最新】微博爬虫及配套数据分析可视化教程
如果你想爬微博热搜话题等,你可以在上述博客地址查看说明书并索引到对应的爬虫文件获取方式。
月小水长
2023-03-02
4.9K0
当人们在讨论 ChatGPT 时,都在讨论什么
第一,ChatGPT 本质上没有脱离计算机的计算范畴,它只能也终将取代繁重重复、只依靠经验和知识的劳动和工作,它可以取代大部分行业的一部分人,包括程序员,但是无法取代所有程序员,也无法取代那些依靠智慧和灵感的工作,笔者在大厂待过一两年,相信所有大厂都一样,主要产品的代码由于历经多人维护、多次迭代、多向重构,其代码量随随便便几千万行甚至上亿计,这样一个庞然大物能够运行起来,除了优雅的架构设计,还有数不清的胶水,复杂度远超当下 ChatGPT 能够生成的 demo 代码,但是它还是能够有它用武之地,有记不清的 function 代码,它是个好帮手,因此更像是一个无限容量的代码字典。
月小水长
2023-03-02
4650
2022 年微博签到数据集自助构建(包含经纬度)
选择构建的城市可以是北京、上海、广州、深圳这样的一线城市,也可以是海口、洛阳这样的三线城市。除了国内所有城市,还可以选择东京、巴黎等国外上百个主要城市。
月小水长
2023-01-30
6930
微博评论在线分析可视化上线
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023-01-30
7240
微博自助采集及可视化网站汇总
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023-01-30
6190
浅谈微博话题爬虫关键词 and or 语法搜索
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023-01-30
4000
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
前阵子发布了 带 ip 属地,无 Cookie 微博话题自助抓取网站上线,可以实现脱离 Python 环境,直接在浏览器上抓取最新微博话题数据。
月小水长
2022-12-07
3850
可按关键词和时间段搜索,微博用户爬虫上新
抓取一个用户发布的微博可能会有这样一个需求,只需要特定时间段内的这个用户发布的微博,或者只需要包含指定关键词的微博,又或者是指定时间段内同时包含指定关键词的微博。这可能很简单,直接把全部的微博抓下来再本地处理过滤不就可以吗。
月小水长
2022-09-03
7640
实时构建 B 站用户关系网络
有了这个网站,你只需输入一个 b 站用户的 uid,或者是直接复制它的个人主页链接,程序以这个 uid 作为起始 uid,不断递归抓取关系信息,从而构建多级关系网络,而且可以选择是关注网络还是粉丝网络,可以很清楚地看到用户关系。
月小水长
2022-09-03
4700
中断可继续,10w+,无 cookie 微博评论抓取网站上线
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
月小水长
2022-09-03
4110
新增 ip 属地,抓得更多,微博超级评论爬虫大更新
2021 新版微博评论及其子评论爬虫发布 发布将近一年了,其中大大小小陆续更新过好几次,主要是由于 weibo.com 改版或者新增 feature。这次的更新也是如此,一者 weibo.com 对评论接口的修改,使得之前的版本能抓到的评论变少了;二是因为评论 ip 属地需要新增。
月小水长
2022-09-03
7150
零配置构建微博用户关系网络的网站也来了
在这个网站,你只需输入一个微博用户的 uid,程序以这个 uid 作为起始 uid,不断递归抓取关系信息,从而构建多级关系网络,而且可以选择是关注网络还是粉丝网络,用户按照认证信息分类,可以很清楚得看到用户关系。
月小水长
2022-09-03
3680
零配置构建微博多层转发网络可视化的网站来了
这个网站是做什么的呢?简单来说,就提供一个功能,啥也不用配置,只需要输入一个微博 id,就能抓取该微博的多级转发并且构建转发关系网络。
月小水长
2022-09-03
4810
微博评论转发总是抓不全?你可能需要知道这些。
距离上一次配置教程更新:万字长文,2022 最全微博超级爬虫指南 已经过去了快 3 个月,天数更易,神器有变,期间后台有不少读者留言各种问题和错误,一部分是上次教程更新的遗漏,也有是微博接口变化,抽空梳理了下。问题主要集中在以下几个方面:
月小水长
2022-09-02
9570
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档