爬取微博大V的50W评论,想看看大家许愿都说了啥……

本文通过爬取微博大V的评论数据进行简单的用户行为分析。

全部阅读大约需要5分钟。

数据来源

爬取对象:新浪微博情感类大V号 “一支上上签”

爬取数量:50W条微博评论数据

工具:python3.5

首发于微信公众号:“产品汪生存指南”

首先,让我们总结一下微博评论自带了哪些可用的信息维度:

1. 用户名;2. 评论内容;3. 评论时间;

4. 信息来源;5.点赞数。

这些数据都是在微博上用户也可直观看到的,通过人为的统计如此巨大量级的数据显然是不现实。但通过爬虫,我们可以轻松获取到这些数据。

出于职业习惯,想优先来对用户属性进行划分,直接可查的数据就是系统类型了。于是根据信息来源这一维度,绘制出以下分布:

参与评论的粉丝中iOS用户占比最高,达到了55.18%,安卓用户其次,占比达42.37%,而通过PC端和H5进入微博的仅占2.45%。

整体移动端流量占比高达97.56%,毋庸置疑,移动端的使用频率已完全超过PC。

(吐槽一句,微博评论来源里的各种小尾巴真是叫人统计的头皮发麻 O.0 ,本来还想统计用户使用的手机型号分布,随便放张图感受一下...)

通过所有微博的评论条数可以大致参考该大号的粉丝活跃曲线:

从图上可以看出,该账号从2015年5月26日开始运营,最高微博评论达到13.9W,平均评论数在821条左右。

可以看到整体活跃曲线呈现缓慢上升趋势,在早期有非常大量的评论微博出现,之后迅速跌落回正常水平。

根据内容不同,部分微博的活跃会直线上升,根据评论数倒序排列的情况如下:

最高评论的微博除了日常许愿外,加入了“还愿”,推测是因为大量的用户在心愿达成后在此微博下继续评论还愿,导致此条微博有二次互动的数据,因此数据量激增,在数据库中检索“还愿”共有7757行数据,但也不乏运营前期刷活跃的可能...

同时评论数前十一的微博中,要求用户通过转发可获得好运气的微博,转发量都会明显高于其他微博,单条微博的最大转发量21.5W。

通过对评论内容进行分词,得到的词频统计如下:

可以看出大部分词语偏正面词汇;

根据所有评论生成的词云图如下,出现的高频词如:

希望、回来、好运、一起、顺利、喜欢。

后续研究思路

可通过更多维度的数据将粉丝活跃的层级反应出来。

比如通过转发微博的后续转发追踪画出传播节点拓扑图,还原热门微博的传播路径,哪些用户可能成为意见领袖等...

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171215G0YYZ400?refer=cp_1026

相关快讯

扫码关注云+社区