前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >王宝强事件的数据分析

王宝强事件的数据分析

作者头像
挖数
发布2018-04-10 10:59:36
4900
发布2018-04-10 10:59:36
举报
文章被收录于专栏:挖数挖数

王宝强离婚事件,在全球华人圈刮起了一阵旋风,不仅让王宝强本人的百度搜索指数在1天时间飙升835倍

也让事件的女主角马蓉的微博粉丝从几十万飙升到现在的534万。

周末忙里偷闲写了个爬虫,爬下了马蓉最后一条微博上面的评论的数据

截止目前该条微博已经有454万条评论,花了2天时间爬下了接近50万条,这些数据包括评论内容、评论人性别、出生日期、地理位置共4个维度的信息,经过统计处理,发现了以下有趣的点:

对50万条评论内容进行去重分词

最多人提及的词语是 “贱人”,共有18%的人提及,接下来是“不要脸”,共有9.8%的人提及,然后是出轨,6.6%的人提及,然后有5.6%的人关心起了王的孩子,4%的人觉得马蓉是现代潘金莲,2.3%的人四级没过不会写英文的bitch写成了碧池,2.3%的人好心提醒大家记得取关马蓉,不给涨粉,1.3%的人质疑马校花的身份,1.3%的人骂起了脏话他妈的。

本来以为关注这件事并评论的人应该女性占大部分,结果

评论的人居然接近50%都是男性。

根据年龄统计,则是

按照地理位置统计,则是

Top10省份中,广东的人无疑是最八卦的,或者说对这件事的反应是最激烈的。

最后恭喜一下我们的成都,成为八卦之都,因为从城市分布上看最多的评论者来自这里。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 挖数 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档