颁奖乌龙就算了,怎么还性别歧视,好莱坞电影怎么了?数据笑而不语

原作者 Amber Thomas

编译 CDA 编译团队 Mika

本文为 CDA 数据分析师原创作品,转载需授权

颁奖乌龙

第 89 届奥斯卡颁奖典礼昨日落幕,《爱乐之城》无非是最大的赢家。但原本波澜不惊未现黑马的颁奖典礼居然在最后一刻爆出史上最大乌龙:先是宣布《爱乐之城》获得最佳影片奖,然而剧组获奖感言都快说完了,又被突然拦住说奖项颁错了,最佳影片奖应是《月光男孩》。

真是隔着屏幕都能感到尴尬。

无缘影帝,又被假最佳影片叫上台的高司令,还要在台上祝贺《月光男孩》剧组。心疼高司令一秒。

那么昨天颁奖乌龙对网络热搜产生了什么影响呢?颁奖乌龙时约为北京时间 13 点左右,根据谷歌指数此时奥斯卡搜索指数达到最高点。

入围最佳电影的热搜变化如下,在颁奖乌龙后,获得最佳影片的《月光男孩》搜索逐渐赶超《爱乐之城》。

奥斯卡相关搜索可见,关于奥斯卡颁奖乌龙的搜索量特别高。

主办方解释颁奖乌龙的原因是因为工作人员错把“最佳女主角”的备用信封当成了“最佳影片”的信封,给了颁奖嘉宾沃伦·比蒂,而备用信封上写着“艾玛·斯通,《爱乐之城》”。

不可否认石头姐获得最佳女主角实至名归,但石头姐表示这个锅我不背。

奥斯卡颁奖乌龙,就算把最佳女主角的颁奖卡拿出来当作最佳影片念一遍,也挡不住电影里面的女性角色戏份越来越少。


好莱坞电影背后的性别歧视

透过数据,我们看到颁奖乌龙带来的蝴蝶效应。

同样,通过数据美国有个女程序员 Amber Thomas 发现了好莱坞电影中居然还存在性别歧视。

这一切的起因还要从这张《星球大战外传:侠盗一号》(以下简称《星战》)的海报说起。

有这么一个不成文的定律:

一般在海报中当一个人的照片比其他人大好几倍时,那这个人多半是主角。

这张海报中可以清楚的看到主角就是 Jyn Erso 。

但容易忽略 Jyn 是这种海报上唯一的女性角色。这也同样反映到这部电影中,不仅女性角色屈指可数,很多时候 Jyn 是众多场景中唯一的女性。

此情此景如 1977 年《星球大战》中 Princess Leia 的情况如出一辙。

那么在 39 年后的今天,

好莱坞电影中性别比例失衡的改观了吗?

好莱坞电影中女性逐渐掌握话语权了吗?

带着这些质疑,Amber 开始了她的数据分析。她根据 the numbers 提供的2016年全球票房前十的影片为研究对象,这十部电影分别是:

美国队长 3 :内战

海底总动员 2 :多莉去哪儿

疯狂动物城

奇幻森林

爱宠大机密

蝙蝠侠大战超人:正义黎明

星球大战外传:侠盗一号

死侍

神奇动物在哪里

X特遣队

这些电影中都有许多令人印象深刻的女性角色,那么从中自然能看到些性别的平等吧?

出于程序员的严谨,Amber 决定用数据说话。证明这个观点,我们需要这几步:

数据

代码

数据可视化


数据

现在确定了研究对象,还需要确定数据来源。有些类似的数据分析项目常常根据人物台词和出镜时间为判断的标准。这都是不错的选择,但是 Amber 希望更深入的探讨电影和角色的关系。

最终她选择了男女角色的台词比重这一角度切入。这样能够专注于在故事中发挥积极作用的角色,并去除没有台词的角色。

有很多粉丝会整理电影中台词,并且免费分享。对于找不到台词的电影,Amber 只能对照字幕文件一个个整理。显然这一过程是费时的,但是结果证明这都是值得的。


分析

一旦有了台词,只需要把 txt 文件导入 R,然后把角色和台词分开分析。以《星战》为例,操作如下:

# Installing Necessary Packages
# For Web Scraping Transcripts
library(rvest)
library(curl)
# For Data Frame Manipulation
library(dplyr)
library(tidyr)
library(stringr)
library(stringi)
# Import Transcript (with formatting)
RO <- readLines("RogueOneTranscript.txt")
# Convert to Data Frame
RO <- as.data.frame(RO)
# Remove empty rows
RO <- RO %>% 
        filter(!(RO == ""))
# Separating Character from words
RO_full <- RO %>% 
          separate(col = RO, into = c("Character", "Words"), sep = ":", extra = "merge") %>% 
          # Eliminate script notes
          filter(!is.na(Words)) %>% 
          # Trim white space and convert Character to factor
          mutate(Character = as.factor(str_trim(Character)), 
                 Words = str_trim(Words))

现在我们有了角色和台词的数据框架,然后需要判定每个角色的性别。

为了保证分类的一致性,制定了以下规则:

1. 尽可能根据指称角色的代词来分判定配性别。 如果一个角色被称为“ he ”或“ him ”,则他被归类为“男性”。

2. 如果电影该角色没有代词指称,但是角色在 IMDB 上有被标注,则使用演员或女演员的性别。

注:演员的性别根据截止至 2017 年 1 月的公开信息判定。(美帝程序员真是严谨)

3. 如果没有角色代词指称,并且角色未标明演员,则参考字幕(有时会表明角色性别)。

4. 如果以上规则都不适用,则根据角色的声音判定性别。

显然这些规则存在着缺陷,这里有一些注意事项:

1. 如果男性角色由女演员配音(反之亦然),且该角色从未用代词指称,他可能被判断错误。 (这里可能性很小,但是不排除。)

2. 电影中若出现不具有实体角色的声音(例如,电影中电脑的声音),则根据配音演员的性别分类。

3. 真正判定所以角色的性别有一定,但将尽可能利用所拥有的提示和信息。

所以现在我们只需要计算每个角色的台词数。 这些通过 dplyr 和 stringipackages 在 R 中就能轻松实现。

# Counting words per character
RO_full2 <- RO_full %>% 
                mutate(count = stri_count(Words, regex = "\\S+")) %>% 
                group_by(Character, Gender) %>% 
                summarise(Total_Words = sum(count)) %>% 
                filter(!(Gender == "unknown"))

数据可视化

现在我们得到了数据结果。但是,仅仅显示台词数量和角色的表不仅枯燥,而且也不直观。

哪种形式最利于展现结果呢?

散点图和条形图显然不太合适。

一个简单的气泡图似乎是不错的选择,但很看清不同角色的台词比重。

最终, Amber 决定用 d3.js 来制作交互式图形。 每个气泡表示一个角色,并且气泡的面积等同于该角色的台词比重。 同时男女台词的的气泡可以分开,表现更清晰。下方的条形也清晰的表明了电影中角色性别占比以及性别台词占比的信息。

结论

最终我们得到的结论如下图:

在 2016 年全球票房前十影片中:

没有一部影片中(有台词的)女性角色占比达到 50% 。

《海底总动员 2 :多莉去哪儿》性别比重最为平等,(有台词的)女性角色占 43% 。但要完全实现平等的话,起码还需要 8 个(有台词的)女性角色。

《星战》在这点上是最糟糕的,(有台词的)女性角色仅占 9% 。 且所出现的 10 个女性角色中,有 1 个是电脑的声音; 1 个在屏幕上出现不足 5 秒;还有 1 个是只说了一个词的 CGI 角色。

只有一部影片中 50% 的台词是女性角色所说的

《海底总动员 2 :多莉去哪儿》中女性台词比重 53% 。 但是,这些台词的 76% 都来自多莉这一个角色。

最后一名是《奇幻森林》,女性台词仅占 10% 。 注意:电影中斯嘉丽·约翰逊作为雄性蛇 Kaa 的配音。(心疼女神一秒)

我们还可以看到:

·《海底总动员 2 :多莉去哪儿》和《疯狂动物城》是 2016 年全球票房前十中唯一的两部电影中女性角色台词最多的。

·《美国队长 3 :内战》中的女角色远远低于男性角色,仅占 5 分之一。在整个电影中,女性角色只贡献了 16% 的台词。

·《蝙蝠侠大战超人:正义黎明》中蝙蝠侠的台词比超人多 2.4 倍,比神奇女侠多6倍。

·《星战》中 78% 的女性台词都来自 Jyn Erso 。

·虽然小丑女 Harley Quinn 是《X特遣队》中大力宣传的角色,但是她的台词只有威尔史密斯饰演的 Floyd/Deadshot 的 42% 。同时影片中另一个女性角色, Viola Davis 饰演的 boss —— Amanda Waller 仅说了 222 个单词,仅为 Deadshot 台词的 16% 。

开始这个项目时,只是感觉《星战》中台词男女分配不均。结果分析完发现 16 年的十大热门电影中几乎没有一部是性别平等的。

好莱坞,我们可以做得更好。

ref:

https://medium.freecodecamp.com/women-only-said-27-of-the-words-in-2016s-biggest-movies-955cb480c3c4#.i4llgxqrv

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏VRPinea

六一儿童节|嗯,以你的身高还真能要到儿童节礼物哦~

2336
来自专栏北京马哥教育

从事 IT 职业的人容易患哪些职业病?有哪些行之有效的预防措施或工作习惯?

从事 IT 职业的人容易患哪些职业病?有哪些行之有效的预防措施或工作习惯? 最近感觉明显身体状态变差,同时在知乎上看到相关的问题,给大家一起看看,预防一下 一...

3957
来自专栏VRPinea

臭名昭著的《沙漠巴士》发布VR重置版,你会花8小时去玩吗?

35010
来自专栏VRPinea

听说你死成狗了?试着和NPC和平谈判吧!

26610
来自专栏谈补锅

iOS开发之──传感器使用 (转载)

在实际的应用开发中,会用到传感器,下面首先介绍一下iphone4的传感器,然后对一些传感器的开发的API作一简单介绍。

1923
来自专栏VRPinea

黑科技满满,炫酷无比的《攻壳机动队》你真的看懂了吗?

3738
来自专栏VRPinea

这些你从未见过的新技术,尽在MWC新品发布会

2946
来自专栏VRPinea

USA Today推出VRtually There第二季,VR新闻带你上天入海走遍全美

3236
来自专栏IT 指南者专栏

愚蠢的简历长什么样

最近招实习生,收到了二十多封 CV,有很多有趣的事情,写出来既当作笑料分享,也可给小孩子们做做训练,免得走弯路:

1474
来自专栏互联网杂技

在垂直90度的墙面上开

新年新气象,就在新年刚刚到来的时候,迪斯尼研究院和ETH(苏黎世联邦理工学院) 的ASL Lab就携手为我们带来了一个能飞檐走壁的有趣的小家伙。我们先一睹为快。...

2775

扫码关注云+社区