首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不懂就问,这波虎扑diss吴亦凡属于什么水平?

我绝对是个不合格的公众号作者

面对热门话题就像个过客。(双押x2)

人家写文章热点蹭不停

跑得比中国香港记者还快

我非觉得不行

选角度、写代码,折腾到现在

跟风的人逃不开过气的宿命,(双押x3 跳押)

我的文章却反复被人山寨。(双押x3 跳押)

(押韵支持来自我们去年的文章

Python有嘻哈:Crossin教你用代码写出押韵的verse

在我这儿,热点只是吸引你们点进来的引子,实际内容则是不那么讨喜但确实有用的信息(为了让你们学点知识我容易么……)。比如这篇文章,五年之后再翻出来,一样对很多人有价值。

今天要说的就是上周一个小热点:

虎扑大战吴亦凡

作为半个从步行街上走出来的公众号和半个伪嘻哈爱好者,尘埃落定之后,出来打个圆场。

顺便也给各位演示下,怎样对一个事件/网站做数据(舆情)分析

相关代码已上传,获取代码请在公众号(Crossin的编程教室)回复虎扑

由于篇幅所限,本文只展示结论和思路。如果想听详细的代码分析,请在文章右下角点个赞,人多的话我就另开一篇详细说明。

事件的前因后果我不想多啰嗦(之前微信上有一篇来龙去脉的文章已被举报)。简单来说就是因为一段无伴奏音轨,虎扑上的用户和吴亦凡的粉丝们在步行街掐上了。

对此次掐架进行的分析数据来源:

因为虎扑无法查看太早的帖子,所以此案例的数据截取了步行街栏目7月25日下午3点8月2日下午四点半左右的帖子。

根据标题中包含的关键字(包含吴、凡、skr、diss等),筛选出4370个主题贴,共260241个回帖,主题总浏览量125523319次。

由于相关回帖数和参与用户太多,案例中的后续分析只抽样了部分主题进行。选取了回帖数最高的 100 个主题帖加随机 100 个主题帖,共包含136964个回帖,并随机选取了其中5279个用户。

数据采集的思路:

从步行街页面上一页页抓取文章列表,抓取主题的标题链接,并记录回帖数浏览量

对于抽样选中的主题,抓取主题内所有回帖(可能需要抓多页),记录下每个回帖的内容、时间、作者ID

根据作者ID,从用户资料页抓取等级、卡路里、喜爱的运动/队伍等信息。

发帖行为:

按时间把回帖量以折线图绘制出来。可以很明显地看到2个高峰:25号晚上30号晚上,分别是事件爆发当晚和吴亦凡发歌反击的那晚。

如果把发帖量以一天24小时的分布来衡量,发帖高峰期还是在晚饭后,正应了“茶余饭后”这词。

用户画像:

用户最高等级231最高卡路里 561278

1级的用户占比遥遥领先,估计有很多都是刚注册的小号吧。6级以下用户占了将近一半。

大多数用户的卡路里在 10~20 左右,但也有极个别的大神数据逆天。

将两项数据以点状图绘制出来,能比较直观的看出用户的分布。

湖人的支持者最多,不怪湖人总冠军。皇马是排名最高的非NBA球队,广东华南虎广州恒大是排名最高的国内篮/足球队。法拉利是跻身此图中的唯一非篮/足球队。

有一个很重要的用户信息我没有统计:性别。因为我觉得对于可能是最好的直男网站来说,这根本没有必要啊。

话题内容:

从词频来看,虎扑吴亦凡平分秋色,skr无疑成最大赢家。

随机挑了 1000 个回帖进行情感分析,结果出乎我意料:除去一半多的中性内容(为了显示效果,图上有做过处理),正面和负面情绪竟然在数量上差不多,甚至正面情绪还多一点点。细细对照具体内容看了下,虽是互掐,但言语上还是以调侃、戏谑为主,粗暴过激的语言并不多。所以这种事情嘛,认真你就输了。

以上就是对虎扑此次热点的粗浅分析。不算很细致很精确,但足够给练习数据分析的同学参考。

用到的外部库:

peewee

request

BeautifulSoup

pyecharts

jieba

wordcloud

想要再进一步,还有不少值得挖掘的信息。比如说:

1. 标题/内容关键字与阅读数的关系。你想发一个被热议的帖子,该写什么?

2. 根据参与话题的关键字对用户进行分类。平台方可以由此了解用户兴趣所在,推送推荐内容。

3. 用户活跃度(发/回帖数、在线时长等)与用户兴趣(运动、队伍、关键字)及用户行为(上线时间、访问设备)、用户属性(性别、年龄、职业)之间的关联性

互联网上的热点层出不穷,总是能给广大围观群众送上吃不完的瓜。把有限的注意力和时间花费在什么事情上,是每个人的自由,不做评判。我个人的态度在以前的文章全菊变量和菊部变量里说过,借热点说点有用的东西。以及,关注一些真正需要更多关注的事件他花了14个小时找了一下长春长生们究竟卖到了哪里去。

获取文中案例源代码,请在公众号(Crossin的编程教室)回复虎扑

如需了解视频课程及答疑群等更多服务,请号内回复码上行动

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180806B0SBIC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券