首页
学习
活动
专区
工具
TVP
发布

月小水长

专栏作者
138
文章
160173
阅读量
36
订阅数
推特(X) 关于 ChatGPT 话题的高质量推文数据集
自从 2023 年推特被火星人马斯克先生收购并进行全面商业化之后,推特 API 的费用就水涨船高了。
月小水长
2024-02-22
1150
逢年过节,酒店价格到底涨了多少
酒店,字面意思就是喝酒的地方,早先时候大部分去酒店的人确实是去喝酒的,但是喝醉了就得休息,于是酒店就有了住宿的功能。
月小水长
2024-02-22
720
Python 源代码 | 2024 版抖音评论采集爬虫
当时的重点只是讲 hook 这种方法,并不是采集抖音评论,有点为了这瓶醋包了这碗饺子的意思在里面。
月小水长
2024-01-12
1.8K6
源代码和软件 | 采集 1w+ B 站视频评论(年底更新版)
转眼又到年关,不知不觉距离 2023 bilibili 视频评论爬虫 发布已经过去 6 个月了,当时一并分享了 python 3 源代码和 windows 打包软件,收到了不少反馈。
月小水长
2023-12-30
2293
源代码和软件 | 采集 1w+ B 站视频评论(年底更新版)
转眼又到年关,不知不觉距离 2023 bilibili 视频评论爬虫 发布已经过去 6 个月了,当时一并分享了 python 3 源代码和 windows 打包软件,收到了不少反馈。
月小水长
2023-12-30
2261
Streamlit 自定义跑马灯组件
近来需要在 streamlit 项目实现跑马灯效果,但是没有现成组件。于是自定义实现了这个组件,并且发布到了 pypi 。
月小水长
2023-11-17
1540
使用 AdaBoost 提升微博 Spammer 识别模型准确率至 95%
但是这样识别时候要先抓取微博账号的 profile 页信息、关系网络、微博文本等等信息,至少需花费上百秒,无法做到实时识别。
月小水长
2023-11-03
1700
数据分析利器 pandas 系列教程(六):合并上百万个 csv 文件,如何提速上百倍
过完基础知识以后就是实战 tricks 的集锦,这些都是笔者在实际工作中用到的解决方案,求小而精,抛砖引玉。
月小水长
2023-11-03
2280
更准更快的微博 Spammer 水军账号检测模型,支持 API 调用
当时耗费数周,手动标注了数 K 条微博账号数据集,正负样本 1:1,构建识别模型,准确度在 85% 左右。
月小水长
2023-10-26
2860
采集分析马斯克发布的 3w 条推特(X),输入大模型询问马斯克对比亚迪的评价
编写 Python 3 爬虫采集了马斯克发布过的所有推特,时间是 2013.1.1 至 2023.10.8 ,一共 26844 条 ,CSV 包含推文时间、内容、点赞数、评论数、引用数、转推数、经纬度、回复人等 30 余字段。
月小水长
2023-10-23
2560
源代码和工具 | 2023 bilibili 视频弹幕爬虫,单条视频最多可爬取 10000 条弹幕
书接上回,b 站除了评论区出人才,弹幕也是 b 站文化富集之地,所以今天分享的是 b 站弹幕爬虫,文末同时附上源代码和 exe 工具链接。
月小水长
2023-08-17
9020
源代码和工具 | 2023 bilibili 视频评论爬虫,单条视频最多可爬取 10000 条评论
我帮一些没玩过 b 站的朋友问了 ChatGPT,b 站是什么,它是这么回答我的。
月小水长
2023-08-17
1.7K5
数据集 | 2023 bilibili 视频弹幕数据集,以「木鱼水心」解说视频为例
今天分享的是 b 站弹幕数据集,使用 b 站弹幕爬虫,抓取 b 站著名百大 up 主「木鱼水心」关于三国演义、水浒传、红楼梦这些四大名著最火的几个视频的弹幕列表。
月小水长
2023-07-03
3540
抓取保存小红书用户主页发布、收藏、点赞过的笔记
假如想分析某个小红书大 v 的数据,即主要分析它主页发布过的笔记、点赞过和收藏过的笔记,来一瞥流量之门,首先就需要将这些数据全部抓取保存到本地。
月小水长
2023-07-03
9690
自研小红书评论区自动回复软件,于繁杂的客服流水作业中抽身
无论是小红书还是其他平台,对于个人用户来说,假如他无意中发布了一篇爆款笔记,评论区肯定很多相同的溢美之词和技术咨询,
月小水长
2023-07-03
1.5K2
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
不过由于某些微博的转发可能多达十万甚至百万,有必要对网络规模作出限制,这里采取的做法是限制每一层节点最多为 N 个。
月小水长
2023-07-03
3180
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
月小水长
2023-07-03
1.6K0
因为喜欢广州早茶,我抓取了点都德 100000 条大众点评评论
记得在北漂时,周围的同事都说北京是美食荒漠,比不得我的大长沙,我深以为然,我觉得甚至比不上我老家。
月小水长
2023-07-03
2290
任意关键词(如淄博烧烤)微博数据抓取及可视化
利用在上一期【推送】中微博关键词爬虫,爬取了超过 4000 条微博数据,每条数据 18 个字段,这一期,我们来看看对这份数据的数据分析。包含常规可视化和复杂网络建模两部分,也许值得一个收藏、转发。
月小水长
2023-07-03
3710
小红书关键词帖子数据采集和监控系统
很多读者可能有这种习惯,吃瓜看微博,疑惑上知乎,那要是生活方式和消费决策,还得是小红书。
月小水长
2023-04-27
1.1K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档