前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微博爬虫解决 Meiko 之问,冠军皮肤选猫咪还是选露露呢

微博爬虫解决 Meiko 之问,冠军皮肤选猫咪还是选露露呢

作者头像
月小水长
发布2021-11-16 13:08:39
2980
发布2021-11-16 13:08:39
举报
文章被收录于专栏:月小水长

S11 结束了,EDG 牛逼就完事了。

作为 Meiko 十年老粉,我看到他发了这样一条微博:

所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。

我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等英雄的关键词,每一条评论出现某一个英雄的关键词 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。

差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点

然后就是抽取分析统计了,核心的统计代码如下:

代码语言:javascript
复制
if '猫咪' in comment_content or '猫' in comment_content:
    vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1
elif '露露' in comment_content or '璐璐' in comment_content:
    vote_dict['露露'] = vote_dict.get('露露', 0) + 1
elif '娜美' in comment_content:
    vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1
else:
    vote_dict['其他'] = vote_dict.get('其他', 0) + 1

因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。

还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。

把各英雄的投票数可视化如下:

最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • S11 结束了,EDG 牛逼就完事了。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档