本文通过爬取微博大V的评论数据进行简单的用户行为分析。
全部阅读大约需要5分钟。
数据来源
爬取对象:新浪微博情感类大V号 “一支上上签”
爬取数量:50W条微博评论数据
工具:python3.5
首发于微信公众号:“产品汪生存指南”
首先,让我们总结一下微博评论自带了哪些可用的信息维度:
1. 用户名;2. 评论内容;3. 评论时间;
4. 信息来源;5.点赞数。
这些数据都是在微博上用户也可直观看到的,通过人为的统计如此巨大量级的数据显然是不现实。但通过爬虫,我们可以轻松获取到这些数据。
出于职业习惯,想优先来对用户属性进行划分,直接可查的数据就是系统类型了。于是根据信息来源这一维度,绘制出以下分布:
参与评论的粉丝中iOS用户占比最高,达到了55.18%,安卓用户其次,占比达42.37%,而通过PC端和H5进入微博的仅占2.45%。
整体移动端流量占比高达97.56%,毋庸置疑,移动端的使用频率已完全超过PC。
(吐槽一句,微博评论来源里的各种小尾巴真是叫人统计的头皮发麻 O.0 ,本来还想统计用户使用的手机型号分布,随便放张图感受一下...)
通过所有微博的评论条数可以大致参考该大号的粉丝活跃曲线:
从图上可以看出,该账号从2015年5月26日开始运营,最高微博评论达到13.9W,平均评论数在821条左右。
可以看到整体活跃曲线呈现缓慢上升趋势,在早期有非常大量的评论微博出现,之后迅速跌落回正常水平。
根据内容不同,部分微博的活跃会直线上升,根据评论数倒序排列的情况如下:
最高评论的微博除了日常许愿外,加入了“还愿”,推测是因为大量的用户在心愿达成后在此微博下继续评论还愿,导致此条微博有二次互动的数据,因此数据量激增,在数据库中检索“还愿”共有7757行数据,但也不乏运营前期刷活跃的可能...
同时评论数前十一的微博中,要求用户通过转发可获得好运气的微博,转发量都会明显高于其他微博,单条微博的最大转发量21.5W。
通过对评论内容进行分词,得到的词频统计如下:
可以看出大部分词语偏正面词汇;
根据所有评论生成的词云图如下,出现的高频词如:
希望、回来、好运、一起、顺利、喜欢。
后续研究思路
可通过更多维度的数据将粉丝活跃的层级反应出来。
比如通过转发微博的后续转发追踪画出传播节点拓扑图,还原热门微博的传播路径,哪些用户可能成为意见领袖等...
领取专属 10元无门槛券
私享最新 技术干货