换个姿势看《权力的游戏》,第七季回归之推特数据分析

原作者 Conor Dewey

编译 Mika

本文为 CDA 数据分析师原创作品,转载需授权

作为一部红遍全球的美剧,《权力的游戏》可谓是当之无愧的神剧。自2011年第1季问世以来,就吸引了无数粉丝。该剧第7季于上周7月16日回归,下面让我们对回归首集的推特数据进行分析。

凛冬已至。《权力的游戏》第7季已至,而这个我们所钟爱的美剧总共只剩下12集了,且看且珍惜。或者我们可以换个姿势,以数据的角度对《权力的游戏》进行分析,何乐而不为呢?

“死亡是如此可怕的结局,而生活充满了可能性。”

——提利昂·兰尼斯特

在没有明确的目标和方向时,我开始考虑针对最近《权力的游戏》的回归首集做些有趣的探索性数据分析。经过一番思考之后,我决定选择针对推特。推特上,普通观众和铁杆粉丝们都一起,实时讨论或吐槽剧情。在当中一定会发现一些有趣的见解。让我们开始吧。

剧透预警

如果你还没有看最新一集并打算看的话,那么前方可能涉及剧透。建议先耐心追完剧再看,如果无所谓的话,那么继续看关于《权力的游戏》S7E1的数据解读吧。

收集数据

由于缺乏真正抓取数据的经验,我经过了抓取数千条“权力的游戏”相关推文的过程。进而,我决定抓取只标记了#GoT的相关推文。事实证明这已足够,因为我在一周内共抓取了超过215,000条推文。更重要的是,在首播期间就有超过25,000条实时推文。这些将作为我分析的主干。

关于首映

正如人们所想象的那样,随着时间的推移,人们对该剧回归首集的兴奋之情也逐渐升温。下图显示了7月10日-7月18日一周内相关推文的数量。

在11日和13日可以看到一些波动。老实说,我不太清楚这是什么原因,通常可能是由于炒作或者发布了头条新闻。

更明显的是,可以发现在剧集播放的一小时内数据出现了一个明显的高峰。接下来,让我们单独分析这一个小时内的实时推文情况。

播放时的推文活跃情况

从来自世界各地关于《权力的游戏》的近25,000条推文中,我们可以了解到许多信息。下图中可以看到精确到分钟,在首集播放的那一个小时内,推文数据的活跃程度并不是完全不变的。

可以马上注意到:有4个时间段,推文数量达到峰值。下面让我们具体看看,峰值期间剧情到底发生了什么:

0-4分钟(被提及约800次):剧集刚开始,艾莉亚做了重要演讲。

8-12分钟(约1300次):主题曲时间,我们听到了一直在等待的熟悉旋律。

34〜36分钟(约400次):山姆出场,有一段非常不适合吃饭时观看的蒙太奇片段。

40〜44分钟(约600次): Ed Sheeran莫名其妙地出来客串。

关键词分析

经过一般行为分析,下面我们来进一步深入分析这些推文的内容。我选择使用nltk包,以便创建整个剧集的推文语料库。

为了证实这个语料库是有意义的,必须采取一些措施。我使用nltk内置的功能删除了所有典型的停用词。接着,我删除少于三个字母的单词。同时我也删除了英语字典中没有的单词。最后,我重新添加了关于该剧的术语,比如人物的名字。比如由于某种原因,“丹妮莉丝”(daenerys)就未收录在英文字典中

现在,我们已经清理了这个包含超过50万不同词汇的巨型语料库,可以开始分析数据了。为了对该语料库进行可视化,我创建了20个最常用单词的数据框架,以及词云。

正如所看到的,提及最多的词是“首映(premiere)”(没毛病)。接下来,还有一些有趣的关键词,如“红色(red)”,“乔拉(jorah)”和“瓦里斯(varys)”。稍后我将进一步对人物角色进行分析。这里所有关于“红色”的推文,可能均指向剧集开端艾莉亚精心策划对血色婚礼(red wedding)的复仇。此外,“黄老板(sheeran)”被提及超过4000次,排名12,好的吧。

被提及的角色

在剧集结束时,我们经常会与朋友讨论:“哪个角色赢了(或输了)?”通过数据分析,我们可以更准确地回答这个问题。

得到的结果非常有趣。乔拉为第一位(由于他悲催的遭遇),被提及超过6000次。瓦里斯与之不相上下,位居第二(不太记得为什么会这样…..)。之后,分别是:艾莉亚,囧,瑟曦珊莎。令我感到惊讶的是,尽管作为最后15分钟的焦点,丹妮莉丝却位居第七。我猜可能是因为她的名字难写吧,也可能是错的。最后是阿多(Hodor),他以被提及了超过500次挤进前十。Hodor。

结语

在写完这篇文章时,我想反思几件事情。通过这个项目,我意识到在一些看似微不足道的事情背后所积蓄的力量,比如本文分析的推特。我打算在之后的工作中,继续充分利用推特和其他媒体资源。

(已经更新第二集了呢,话不多说,要去追剧了)

github 完整代码:

https://github.com/conordewey3/GOTS7E1-EDA/blob/master/GOT%201%20EDA.ipynb

原文链接:

https://medium.com/towards-data-science/game-of-thrones-s7e1-twitter-analysis-8dcd0bec958b

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

美国空军研究实验室携手IBM开发类脑感官超级计算机

据防务系统网站(DefenseSystem)报道,美国空军研究实验室(AFRL)与IBM将在人工智能领域展开合作,创新地设计一款由64芯片阵列驱动的大脑启发式超...

35450
来自专栏PPV课数据科学社区

【PPT】腾讯社交网络的大数据建模框架探索报告

PPV课大数据 在10月24日2014中国计算机大会的重要活动之一 —-“大数据高峰论坛”,腾讯公司社交网络运营部专家研究员岳亚丁在论坛上作了题为“社交网络的大...

38530
来自专栏VRPinea

苹果掀起新一轮视频通话革命,而此次主角是:光场技术

39550
来自专栏人工智能快报

美情报机构拟资助研发可预测未来的智能工具

2016年7月6日,美国国防系统网发布消息称,美国情报高级研究计划局(IARPA)计划资助研发可预测未来的智能工具。 随着来自传感器及其他来源的信息的大量涌入,...

37170
来自专栏PPV课数据科学社区

8个案例让数据不再撒谎

最近关于数据造假的评论很多,数据说谎的情况有两种,一种是出于某种目的,人为的将公示的数据注入一些水分;另一种“假”则是因为对业务不了解或经验的不足而在数据解读上...

31050
来自专栏DT数据侠

Facebook效应:如何在社交网络中制造流行?(下篇)

在上篇文章中,我们用维基百科的搜索量侧面验证了Facebook上曝光的重要性。那么接下来,我希望尝试从数据中找到一些“流行的经验”,让内容得到最大程度的曝光。

8500
来自专栏黄成甲

互联网产品如何建立用户画像?

过年时,闲来无聊,便想起年前和啊喔科技的的朋友聊到过“不写就出局”用户活跃度的话题,大家共同讲起了需要建立产品的用户画像。去年十月,雨花客厅程冲老师在产品课程上...

44520
来自专栏AI研习社

「唯物」“刷脸”没能进入消费领域,但“刷眼”也许可以

前一段时间,有司机冒充赵薇老公到公证处通过人脸识别技术办理了委托公证证明,以委托人的身份卖掉了赵薇家一处价值千万的豪宅。这条新闻不禁让人们对于人脸识别的准确性和...

35960
来自专栏量子位

如何为智能投顾打造对话系统?这有一份指南可供参考

主讲人:灵智优诺CTO 许可 屈鑫 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 作为人工智能和语言学的重要分支,自然语言处理(NLP)的相关研究一直...

38260
来自专栏新智元

深度学习驱动智能搜索引擎,RankBrain革了SEO的命

【新智元导读】想在谷歌或百度等搜索结果中排名靠前,除了广告(给钱),你还可以选择SEO(搜索引擎优化):让网站符合算法的规则,提升在搜索引擎内的自然排名。但去年...

39990

扫码关注云+社区

领取腾讯云代金券