专栏首页机器学习与统计学临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?

临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?

重磅干货,第一时间送达

大数据文摘出品

作者:张弛、王奇文、蒋宝尚

2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。

如果说《老友记》是上一代的美剧青春,那《生活大爆炸》无疑是今天90后这一代人精神版图中不可或缺的部分。

12年对全球观众意味着多久?中学6年,大学4年,毕业2年,从懵懂到成熟,整个青春时代……

这12年,剧中角色遇到了各自的真爱,经历了各自的得失,我们也毕业、告别、成家、生子。

剧中人物各具特色,在他们身上,我们或多或少能够看到自己的影子。文摘菌作为多年美剧《生活大爆炸》的粉丝,抛开情感不谈,在看完生活大爆炸最后一集,我开始纳闷,到底谁是《生活大爆炸》的主角?

是虽然高智商天才但是个偏执狂谢尔顿?还是感情丰富却优柔寡断的莱纳德?又或者是一向被称为“妈妈的好孩子”却好色的霍华德?还是表面害羞客观,内心花花公子的拉杰什?

一千个读者心中有一千个哈姆雷特,每个人对于谁是主角都有不同的答案,但是文摘菌利用数据分析出,到底谁是《生活大爆炸》中的C位。

为了确定这个问题的答案,文摘菌从GitHub中下载了《生活大爆炸》九季的剧情,并且用不同的参数来找出谁是最突出的。

整个分析是使用Python完成的,数据集本身已经被处理的很好,每个场景以及每个人的对白都已经被提取了出来,并以json文件存储。文摘菌将文件转换成结构数据的过程中省了不少力气。

数据集地址:

https://github.com/skashyap7/TBBTCorpus

数据分析部分代码地址:

https://github.com/wqw547243068/Python-learning/blob/master/courses/chapter_3/big_bang_theory.ipynb?tdsourcetag=s_pcqq_aiomsg

谢耳朵助攻女友跻身主角

首先,看看每个人的台词。因为无法得到每个角色在屏幕中实际出现的时间,所以每个人的台词量可以作为一个合理的估算标准,所以究竟是哪位的台词最多呢。

谢尔顿十多万的台词数目排在第一位,而莱纳德虽然排在了第二位,但是和谢尔顿相差一倍。卡蕾·措科饰演的Penny作为唯一的女主角当仁不让的超过了霍华德和拉杰什排在了第三位。Amy出现在电视剧中第三季最后一集,虽然只是霍华德通过婚介网偷偷帮谢尔顿找的女朋友,但是作为第四季以及之后的班底人物,妥妥的跻身女主角行列。

演员们说了这么多台词,那么什么是他们口中最经常出现的台词呢?

经过分析,选出了出现频率为top30的词汇,去掉The、to、a、of等停用词,发现几“I”和“you”在每位主角的台词中出现频率最高,这也符合本剧的设置,因为大多数笑点包袱是通过对话抖出来的。

除此之外,莱纳德喜欢说Know、Penny喜欢说oh~谢尔顿喜欢也喜欢说Know,值得一提的是,在9季电视剧中,他叫了莱纳德657次。作为谢尔顿的女友,Amy当然叫谢尔顿的次数最多啦~足足有266次。另外,霍华德和拉杰什喊的台词最多也是know。

有了“I”和“you”出现的次数,完全可以假定当“I”出现的时候,角色必然会出现在荧幕上,这在一定程度上能够反映导演给的镜头数量~

数据结果非常有趣,谢尔顿仍然是冠军,其他排名和台词数量保持一致,值得注意的是,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多,而作为后登场的Amy显然不如她的几位“前辈”。

那么,考虑全部的台词,各位主角的名字出现了多少次呢?显然,这也是非常能够体现各位主角地位的地方。

显然,分析结果和上面的稍微 不一样,拉杰什稍逊Amy一筹,毕竟作为谢尔顿的女友,台词之王给予的助攻是不可忽略的。

谢尔顿多榜第一霸占C位

来,快速回顾一下。

  • 谢尔顿的台词数量最多,超过第二名将近一倍。单词数量的情况与台词量类似。
  • 谢尔顿在银幕上的出场次数最多,莱纳德和Penny镜头相差无几,霍华德和拉杰什的镜头数量相差不多。
  • 谢尔顿这个名字在剧情中也是出现最多的,有趣的是。他叫了莱纳德的名字657次。

综合考虑,谢尔顿是生活大爆炸中当之无愧的主角,无论是台词数目,还是镜头以及名字出现的次数都是冠军,作为后出场的Amy,导演在后几季的时候也给与了充分的戏份。

大家都是公寓控

做《生活大爆炸》的数据分析真的很有趣,除了分析谁是主角外,我发现了一些你可能会感兴趣的其他事实。

整个电视剧发生的场景非常多,对白发生最多的地方当属他们的公寓,其次是餐厅,对白发生在房间的比例也达到了4.45%。

那么,各位主角最喜欢在哪个场景发表看法呢?

从上面的热力图可以看出,大家都是公寓控。而谢尔顿先生无论是在床上,房间、餐厅、汽车都妥妥的比其他演员的台词要多。另外,可以看出整体的台词分布,基本符合场景安排,没有哪个角色钟爱哪个场景。

公寓是对白发生最多的地方,我们来瞧瞧有没有属于角色的专属词汇!

在公寓,谢耳朵爱说oh以及my

莱纳德:What?

penny:oh~

霍华德:my、do、me

Raj:my、me、was

Amy:谢耳朵!

电影中的出场人物除了这几位主角之外,其他角色也有比较多的戏份,文摘菌粗略统计了一下,发现2009年在第三季的客串角色Bernadette台词占比也有接近5% 。作为剧中三号人物霍华德的女友,台词数量虽然比不上一号人物的女朋友,但是也相差确实不多。

作为艺术学校出身,其实在刚开始出场时也是看起来怂一点的Stuart也有不少戏份,但总归不是主角,台词占比只有1.23%。

最后,用开头那张合照做了整体台词的词云可视化,算是对这部陪伴了我们12年的美剧的一个告别吧~

当然,抛开数据分析,在美剧《生活大爆炸》中你最喜欢的是谁呢?

本文分享自微信公众号 - 机器学习与统计学(tjxj666)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python学习 Day 2-数据类型和变量

    Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1,100,-8080,0,等等。

    统计学家
  • Python学习 Day 1-简介 安装 Hello world

    Python(英语发音:/ˈpaɪθən/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版...

    统计学家
  • R in action读书笔记(6)-第七章:基本统计分析(下)

    相关系数可以用来描述定量变量之间的关系。相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)。...

    统计学家
  • 临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?

    2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。

    zenRRan
  • 临别给《生活大爆炸》做个台词数据分析,你猜谢耳朵最爱说什么?

    2019年5月1日,美剧《生活大爆炸》最后一集正式宣布杀青,于北京时间5月17日早8点播出,时长达一个小时。这部陪伴观众成长了12年的美剧,已与全球观众告别。

    大数据文摘
  • 你该知道的C++四种显式类型转换

    在C语言中,我们需要做类型转换时,常常就是简单粗暴,在C++中也可以用C式强制类型转换,但是C++有它自己的一套类型转换方式。

    编程珠玑
  • 消息队列-腾讯云消息队列 CKafka

    腾讯云消息队列 CKafka,分布式、高吞吐量、高可扩展性的消息服务,100%兼容开源 Apache Kafka 0.9 0.10

    用户3570397
  • 使用ABAP批量下载有道云笔记中的图片

    当您看到一篇好的有道云笔记分享时,可能会想将其精美的图片下载到本地。作为程序猿,我们不会去手动一张张下载。写个程序帮我们自动下载吧。

    Jerry Wang
  • Nginx 思维导图

    芋道源码
  • Android进程保活-自“裁”或者耍流氓

    本篇文章是后台杀死系列的最后一篇,主要探讨一下进程的保活,Android本身设计的时候是非常善良的,它希望进程在不可见或者其他一些场景下APP要懂得主动释放,可...

    看书的小蜗牛

扫码关注云+社区

领取腾讯云代金券