专栏首页CDA数据分析师颁奖乌龙就算了,怎么还性别歧视,好莱坞电影怎么了?数据笑而不语

颁奖乌龙就算了,怎么还性别歧视,好莱坞电影怎么了?数据笑而不语

原作者 Amber Thomas

编译 CDA 编译团队 Mika

本文为 CDA 数据分析师原创作品,转载需授权

颁奖乌龙

第 89 届奥斯卡颁奖典礼昨日落幕,《爱乐之城》无非是最大的赢家。但原本波澜不惊未现黑马的颁奖典礼居然在最后一刻爆出史上最大乌龙:先是宣布《爱乐之城》获得最佳影片奖,然而剧组获奖感言都快说完了,又被突然拦住说奖项颁错了,最佳影片奖应是《月光男孩》。

真是隔着屏幕都能感到尴尬。

无缘影帝,又被假最佳影片叫上台的高司令,还要在台上祝贺《月光男孩》剧组。心疼高司令一秒。

那么昨天颁奖乌龙对网络热搜产生了什么影响呢?颁奖乌龙时约为北京时间 13 点左右,根据谷歌指数此时奥斯卡搜索指数达到最高点。

入围最佳电影的热搜变化如下,在颁奖乌龙后,获得最佳影片的《月光男孩》搜索逐渐赶超《爱乐之城》。

奥斯卡相关搜索可见,关于奥斯卡颁奖乌龙的搜索量特别高。

主办方解释颁奖乌龙的原因是因为工作人员错把“最佳女主角”的备用信封当成了“最佳影片”的信封,给了颁奖嘉宾沃伦·比蒂,而备用信封上写着“艾玛·斯通,《爱乐之城》”。

不可否认石头姐获得最佳女主角实至名归,但石头姐表示这个锅我不背。

奥斯卡颁奖乌龙,就算把最佳女主角的颁奖卡拿出来当作最佳影片念一遍,也挡不住电影里面的女性角色戏份越来越少。


好莱坞电影背后的性别歧视

透过数据,我们看到颁奖乌龙带来的蝴蝶效应。

同样,通过数据美国有个女程序员 Amber Thomas 发现了好莱坞电影中居然还存在性别歧视。

这一切的起因还要从这张《星球大战外传:侠盗一号》(以下简称《星战》)的海报说起。

有这么一个不成文的定律:

一般在海报中当一个人的照片比其他人大好几倍时,那这个人多半是主角。

这张海报中可以清楚的看到主角就是 Jyn Erso 。

但容易忽略 Jyn 是这种海报上唯一的女性角色。这也同样反映到这部电影中,不仅女性角色屈指可数,很多时候 Jyn 是众多场景中唯一的女性。

此情此景如 1977 年《星球大战》中 Princess Leia 的情况如出一辙。

那么在 39 年后的今天,

好莱坞电影中性别比例失衡的改观了吗?

好莱坞电影中女性逐渐掌握话语权了吗?

带着这些质疑,Amber 开始了她的数据分析。她根据 the numbers 提供的2016年全球票房前十的影片为研究对象,这十部电影分别是:

美国队长 3 :内战

海底总动员 2 :多莉去哪儿

疯狂动物城

奇幻森林

爱宠大机密

蝙蝠侠大战超人:正义黎明

星球大战外传:侠盗一号

死侍

神奇动物在哪里

X特遣队

这些电影中都有许多令人印象深刻的女性角色,那么从中自然能看到些性别的平等吧?

出于程序员的严谨,Amber 决定用数据说话。证明这个观点,我们需要这几步:

数据

代码

数据可视化


数据

现在确定了研究对象,还需要确定数据来源。有些类似的数据分析项目常常根据人物台词和出镜时间为判断的标准。这都是不错的选择,但是 Amber 希望更深入的探讨电影和角色的关系。

最终她选择了男女角色的台词比重这一角度切入。这样能够专注于在故事中发挥积极作用的角色,并去除没有台词的角色。

有很多粉丝会整理电影中台词,并且免费分享。对于找不到台词的电影,Amber 只能对照字幕文件一个个整理。显然这一过程是费时的,但是结果证明这都是值得的。


分析

一旦有了台词,只需要把 txt 文件导入 R,然后把角色和台词分开分析。以《星战》为例,操作如下:

# Installing Necessary Packages
# For Web Scraping Transcripts
library(rvest)
library(curl)
# For Data Frame Manipulation
library(dplyr)
library(tidyr)
library(stringr)
library(stringi)
# Import Transcript (with formatting)
RO <- readLines("RogueOneTranscript.txt")
# Convert to Data Frame
RO <- as.data.frame(RO)
# Remove empty rows
RO <- RO %>% 
        filter(!(RO == ""))
# Separating Character from words
RO_full <- RO %>% 
          separate(col = RO, into = c("Character", "Words"), sep = ":", extra = "merge") %>% 
          # Eliminate script notes
          filter(!is.na(Words)) %>% 
          # Trim white space and convert Character to factor
          mutate(Character = as.factor(str_trim(Character)), 
                 Words = str_trim(Words))

现在我们有了角色和台词的数据框架,然后需要判定每个角色的性别。

为了保证分类的一致性,制定了以下规则:

1. 尽可能根据指称角色的代词来分判定配性别。 如果一个角色被称为“ he ”或“ him ”,则他被归类为“男性”。

2. 如果电影该角色没有代词指称,但是角色在 IMDB 上有被标注,则使用演员或女演员的性别。

注:演员的性别根据截止至 2017 年 1 月的公开信息判定。(美帝程序员真是严谨)

3. 如果没有角色代词指称,并且角色未标明演员,则参考字幕(有时会表明角色性别)。

4. 如果以上规则都不适用,则根据角色的声音判定性别。

显然这些规则存在着缺陷,这里有一些注意事项:

1. 如果男性角色由女演员配音(反之亦然),且该角色从未用代词指称,他可能被判断错误。 (这里可能性很小,但是不排除。)

2. 电影中若出现不具有实体角色的声音(例如,电影中电脑的声音),则根据配音演员的性别分类。

3. 真正判定所以角色的性别有一定,但将尽可能利用所拥有的提示和信息。

所以现在我们只需要计算每个角色的台词数。 这些通过 dplyr 和 stringipackages 在 R 中就能轻松实现。

# Counting words per character
RO_full2 <- RO_full %>% 
                mutate(count = stri_count(Words, regex = "\\S+")) %>% 
                group_by(Character, Gender) %>% 
                summarise(Total_Words = sum(count)) %>% 
                filter(!(Gender == "unknown"))

数据可视化

现在我们得到了数据结果。但是,仅仅显示台词数量和角色的表不仅枯燥,而且也不直观。

哪种形式最利于展现结果呢?

散点图和条形图显然不太合适。

一个简单的气泡图似乎是不错的选择,但很看清不同角色的台词比重。

最终, Amber 决定用 d3.js 来制作交互式图形。 每个气泡表示一个角色,并且气泡的面积等同于该角色的台词比重。 同时男女台词的的气泡可以分开,表现更清晰。下方的条形也清晰的表明了电影中角色性别占比以及性别台词占比的信息。

结论

最终我们得到的结论如下图:

在 2016 年全球票房前十影片中:

没有一部影片中(有台词的)女性角色占比达到 50% 。

《海底总动员 2 :多莉去哪儿》性别比重最为平等,(有台词的)女性角色占 43% 。但要完全实现平等的话,起码还需要 8 个(有台词的)女性角色。

《星战》在这点上是最糟糕的,(有台词的)女性角色仅占 9% 。 且所出现的 10 个女性角色中,有 1 个是电脑的声音; 1 个在屏幕上出现不足 5 秒;还有 1 个是只说了一个词的 CGI 角色。

只有一部影片中 50% 的台词是女性角色所说的

《海底总动员 2 :多莉去哪儿》中女性台词比重 53% 。 但是,这些台词的 76% 都来自多莉这一个角色。

最后一名是《奇幻森林》,女性台词仅占 10% 。 注意:电影中斯嘉丽·约翰逊作为雄性蛇 Kaa 的配音。(心疼女神一秒)

我们还可以看到:

·《海底总动员 2 :多莉去哪儿》和《疯狂动物城》是 2016 年全球票房前十中唯一的两部电影中女性角色台词最多的。

·《美国队长 3 :内战》中的女角色远远低于男性角色,仅占 5 分之一。在整个电影中,女性角色只贡献了 16% 的台词。

·《蝙蝠侠大战超人:正义黎明》中蝙蝠侠的台词比超人多 2.4 倍,比神奇女侠多6倍。

·《星战》中 78% 的女性台词都来自 Jyn Erso 。

·虽然小丑女 Harley Quinn 是《X特遣队》中大力宣传的角色,但是她的台词只有威尔史密斯饰演的 Floyd/Deadshot 的 42% 。同时影片中另一个女性角色, Viola Davis 饰演的 boss —— Amanda Waller 仅说了 222 个单词,仅为 Deadshot 台词的 16% 。

开始这个项目时,只是感觉《星战》中台词男女分配不均。结果分析完发现 16 年的十大热门电影中几乎没有一部是性别平等的。

好莱坞,我们可以做得更好。

ref:

https://medium.freecodecamp.com/women-only-said-27-of-the-words-in-2016s-biggest-movies-955cb480c3c4#.i4llgxqrv

本文分享自微信公众号 - CDA数据分析师(cdacdacda),作者:CDA 编译团队

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 写剧本、模仿声音、制造笑点,机器学习进军好莱坞

    屡获殊荣的电影制作人Kevin Macdonald曾执导过许多部电影,包括《末代独裁》和《国家要案》等,而在去年,Macdonald第一次尝试了拍摄由机器编写剧...

    大数据文摘
  • 继频繁亮相电影节后,VR视频又成颁奖礼的座上宾

    VRPinea
  • 《寄生虫》横扫奥斯卡,Python告诉你这部电影到底好在哪儿?

    【导语】:今天我们横扫本届奥斯卡的韩国电影《寄生虫》,Python技术部分可以直接看第四部分。

    CDA数据分析师
  • 《寄生虫》横扫奥斯卡,Python告诉你这部电影到底好在哪儿?

    【导语】:今天我们横扫本届奥斯卡的韩国电影《寄生虫》,Python技术部分可以直接看第四部分。

    数据森麟
  • Time To Die |《银翼杀手》生化人Roy扮演者果然在2019年去世,Tears in Rain却永不谢幕

    据Variety等多家外媒报道,荷兰演员、电影《银翼杀手》中饰演反派生化人Roy的演员鲁特格尔·哈尔(Rutger Hauer)于上周五去世,享年75岁。

    新智元
  • 保罗·沃克靠CG技术“复活”,《速度与激情7》即将上映

    大数据文摘
  • 图灵奖颁给《玩具总动员》打造者!他们是动画特效先驱,奥斯卡得主,图形学集大成者

    与乔布斯共事26年,被乔布斯屡次称赞“聪明”、“非常聪明”,“天才”的人,能怎么样?

    量子位
  • 2019年图灵奖公布!从阿凡达到图灵奖,皮克斯元老的动画梦

    斯坦福大学计算机图形学实验室教授Patrick Hanrahan和计算机科学家、皮克斯动画工作室联合创始人Edwin Catmull获得了这一计算机领域最高荣誉...

    新智元
  • 用数据告诉你:巴菲特、女神和红酒的关系

    安妮•海瑟薇凭借电影”星际穿越”成为好莱坞女神。可是谁知道她还能直接影响巴菲特的财富?每次她出现在头条,巴菲特的旗舰公司股价就会上涨。以当年海瑟薇在奥斯卡颁奖礼...

    华章科技

扫码关注云+社区

领取腾讯云代金券