专栏首页CDA数据分析师换个姿势看《权力的游戏》,第七季回归之推特数据分析

换个姿势看《权力的游戏》,第七季回归之推特数据分析

原作者 Conor Dewey

编译 Mika

本文为 CDA 数据分析师原创作品,转载需授权

作为一部红遍全球的美剧,《权力的游戏》可谓是当之无愧的神剧。自2011年第1季问世以来,就吸引了无数粉丝。该剧第7季于上周7月16日回归,下面让我们对回归首集的推特数据进行分析。

凛冬已至。《权力的游戏》第7季已至,而这个我们所钟爱的美剧总共只剩下12集了,且看且珍惜。或者我们可以换个姿势,以数据的角度对《权力的游戏》进行分析,何乐而不为呢?

“死亡是如此可怕的结局,而生活充满了可能性。”

——提利昂·兰尼斯特

在没有明确的目标和方向时,我开始考虑针对最近《权力的游戏》的回归首集做些有趣的探索性数据分析。经过一番思考之后,我决定选择针对推特。推特上,普通观众和铁杆粉丝们都一起,实时讨论或吐槽剧情。在当中一定会发现一些有趣的见解。让我们开始吧。

剧透预警

如果你还没有看最新一集并打算看的话,那么前方可能涉及剧透。建议先耐心追完剧再看,如果无所谓的话,那么继续看关于《权力的游戏》S7E1的数据解读吧。

收集数据

由于缺乏真正抓取数据的经验,我经过了抓取数千条“权力的游戏”相关推文的过程。进而,我决定抓取只标记了#GoT的相关推文。事实证明这已足够,因为我在一周内共抓取了超过215,000条推文。更重要的是,在首播期间就有超过25,000条实时推文。这些将作为我分析的主干。

关于首映

正如人们所想象的那样,随着时间的推移,人们对该剧回归首集的兴奋之情也逐渐升温。下图显示了7月10日-7月18日一周内相关推文的数量。

在11日和13日可以看到一些波动。老实说,我不太清楚这是什么原因,通常可能是由于炒作或者发布了头条新闻。

更明显的是,可以发现在剧集播放的一小时内数据出现了一个明显的高峰。接下来,让我们单独分析这一个小时内的实时推文情况。

播放时的推文活跃情况

从来自世界各地关于《权力的游戏》的近25,000条推文中,我们可以了解到许多信息。下图中可以看到精确到分钟,在首集播放的那一个小时内,推文数据的活跃程度并不是完全不变的。

可以马上注意到:有4个时间段,推文数量达到峰值。下面让我们具体看看,峰值期间剧情到底发生了什么:

0-4分钟(被提及约800次):剧集刚开始,艾莉亚做了重要演讲。

8-12分钟(约1300次):主题曲时间,我们听到了一直在等待的熟悉旋律。

34〜36分钟(约400次):山姆出场,有一段非常不适合吃饭时观看的蒙太奇片段。

40〜44分钟(约600次): Ed Sheeran莫名其妙地出来客串。

关键词分析

经过一般行为分析,下面我们来进一步深入分析这些推文的内容。我选择使用nltk包,以便创建整个剧集的推文语料库。

为了证实这个语料库是有意义的,必须采取一些措施。我使用nltk内置的功能删除了所有典型的停用词。接着,我删除少于三个字母的单词。同时我也删除了英语字典中没有的单词。最后,我重新添加了关于该剧的术语,比如人物的名字。比如由于某种原因,“丹妮莉丝”(daenerys)就未收录在英文字典中

现在,我们已经清理了这个包含超过50万不同词汇的巨型语料库,可以开始分析数据了。为了对该语料库进行可视化,我创建了20个最常用单词的数据框架,以及词云。

正如所看到的,提及最多的词是“首映(premiere)”(没毛病)。接下来,还有一些有趣的关键词,如“红色(red)”,“乔拉(jorah)”和“瓦里斯(varys)”。稍后我将进一步对人物角色进行分析。这里所有关于“红色”的推文,可能均指向剧集开端艾莉亚精心策划对血色婚礼(red wedding)的复仇。此外,“黄老板(sheeran)”被提及超过4000次,排名12,好的吧。

被提及的角色

在剧集结束时,我们经常会与朋友讨论:“哪个角色赢了(或输了)?”通过数据分析,我们可以更准确地回答这个问题。

得到的结果非常有趣。乔拉为第一位(由于他悲催的遭遇),被提及超过6000次。瓦里斯与之不相上下,位居第二(不太记得为什么会这样…..)。之后,分别是:艾莉亚,囧,瑟曦珊莎。令我感到惊讶的是,尽管作为最后15分钟的焦点,丹妮莉丝却位居第七。我猜可能是因为她的名字难写吧,也可能是错的。最后是阿多(Hodor),他以被提及了超过500次挤进前十。Hodor。

结语

在写完这篇文章时,我想反思几件事情。通过这个项目,我意识到在一些看似微不足道的事情背后所积蓄的力量,比如本文分析的推特。我打算在之后的工作中,继续充分利用推特和其他媒体资源。

(已经更新第二集了呢,话不多说,要去追剧了)

github 完整代码:

https://github.com/conordewey3/GOTS7E1-EDA/blob/master/GOT%201%20EDA.ipynb

原文链接:

https://medium.com/towards-data-science/game-of-thrones-s7e1-twitter-analysis-8dcd0bec958b

本文分享自微信公众号 - CDA数据分析师(cdacdacda),作者:CDA编译团队

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 英国脱欧,民众是悲是喜?机器学习告诉你答案

    英国公投选择了脱离欧洲,震惊了世界。人们究竟怎么看待这件事?机器学习分析能帮我们找到答案。 2016 年 6 月 24 日是将出现在历史课本上的一天。英国全民公...

    CDA数据分析师
  • 业界深访 | 初创公司CDO眼中的数据科学家

    在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身入数据科学领域。

    CDA数据分析师
  • 帮你理一理,懂业务的数据分析师是怎样建立数据分析框架的?

    因为产品数据是在产品上线后收集到的,所以为了之后能够得到一系列全面合理的数据,需提前做好数据的规划,明确每一个数据所能产生的价值。 不同的分析目的,所需要的KP...

    CDA数据分析师
  • 波兰表达式

    mathor
  • vue3 转

    2018年08月25日 14:08:31  素燃 阅读数:2600

    双面人
  • 【每周NLP论文推荐】 掌握实体关系抽取必读的文章

    欢迎来到《每周NLP论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

    用户1508658
  • httprunner学习13-环境变量.env

    一般来说,在进行实际应用的开发过程中,应用会拥有不同的运行环境,通常会有以下环境:

    上海-悠悠
  • Hyperledger(超级账本)的worldstate和SAP CRM的CRMD_CUMULAT_H

    Hyperledger fabric是基于区块链技术的一个开源项目,由Linux基金会于2015年发起,目的是推进区块链数字技术和交易验证的发展和落地。

    Jerry Wang
  • 自我加戏,在自闭的边缘尝试高可用的Eureka

    微服务架构这样的分布式环境中,必须充分考虑故障的发生,所以生产环境中必须对各个组件进行高可用部署,对于微服务如此,对于服务注册中心也是如此。

    用户6203048
  • 小朋友学C语言(10):for循环

    看程序: #include <stdio.h> int main() { for(int i = 0; i < 5; i++) { ...

    海天一树

扫码关注云+社区

领取腾讯云代金券