【会建模你也能当奥斯卡评委】机器学习预测奥斯卡6大奖项全中!


新智元编译

来源:blog.bigml.com

编译:肖琴

【新智元导读】自去年成功预测第89届奥斯卡8项大奖后,机器学习和数据分析平台BigML再次公布今年的大奖预测结果。今年,利用新的Deepnet模型,BigML预测奥斯卡金像奖的最佳影片、最佳导演、最佳男主角、最佳女主角、最佳女配角和最佳男配角六大奖项,全部预测正确!

今年《水形物语》(The Shape of Water)获得13项提名,显然是最受欢迎的影片,但我们也看到一系列高质量的独立作品与大作之间的激烈竞争。不过,机器学习模型可不在乎这些,因为它们不仅仅跟随评论家的观点。相反,它们根据过去获奖的电影来搜索模式,然后对今年的提名进行预测。

那么,数据来自哪里?

数据

理论上,模型会随着数据增加而变得更好。因此,今年我们保留了去年的所有预测数据和特征。包括从2000年到2017年的共计1183部电影,每部电影有100多种特征,包括:

  • 电影的特点,例如持续时间,预算和流派。
  • IMDB中的电影评价数据,如投票、评级和Metascore。
  • 今年的20个主要电影奖项的提名和获奖者,包括金球奖、英国电影学院奖、美国演员工会奖和评论家选择奖。

今年数据的唯一重大变化是从IMDB中删除了全部用户评论,因为在去年的模型中,这些数据被证明是不重要的,需要花很多功夫获取评论数据。

模型

像去年一样,我们为每个奖项类别训练一个单独的模型。不同的一点是,今年我们使用Deepnet,这是一个深度神经网络,而不是去年使用的集成模型(ensembles)。使用BigML deepnet及其独特的强大自动优化选项(“自动网络搜索”)是确保构建性能最佳的分类器的最简单、最安全的方式。因为几十个不同的网络同时在后台训练,每个模型只需要大约30分钟的训练时间,但是因为最终的模型需要通过试错来优化,仍然需要大量时间。

deepnet创建好后,我们可以很容易地检查模型最重要的特性以及它们分别对预测的影响。例如,在预测最佳影片时,我们可以在高排名的候选里发现多个奖项,例如评论家选择奖、在线电影电视奖、好莱坞电影奖和英国电影学院奖。为了让DNN更易于解释,BigML提供了一个独特的deepnet可视化工具,即局部依赖图(Partial Dependence Plot),用以分析各个特征对预测的边际影响。

我们使用2000年到2012年间的电影来训练模型,然后使用2013年至2016年间的电影数据评估模型。在所有奖项类别中,我们得到超过0.98的ROC AUC,这意味着模型能够连续四年(2013年至2016年)预测获奖者,很少有错误。例如下方预测最佳女主角的混乱矩阵,它能准确预测出4个测试年份中的3个。

预测

接下来让我们预测2018年的奥斯卡获奖影片!

对于每个奖项,模型给出了获奖者和其他提名影片预测的分数。

《水形物语》以91分被预测为最佳影片。不过模型也给其他提名影片不错的分数,《三块广告牌》得到68分。

对于最佳导演奖,模型没有任何犹豫。 吉列尔莫·德尔·托罗( Guillermo del Toro )得到最接近获奖的75分,其他提名人的分数没有接近他的。

同样,对于最佳女主角奖项,似乎也不存在竞争。 Frances McDormand得到99分,毫无疑问是最受欢迎的。其他候选人的分数远远落后,Margot Robbie只得到5分。

加里·奥德曼(Gary Oldman)凭借在《黑暗时刻》中饰演的温斯顿·丘吉尔精彩表演,以88分的成绩被预测为最佳男主角得主。不过,在《请以你的名字呼唤我》(Call Me By Your Name)中饰演艾力奥的后起之秀提莫西 · 查拉梅(Timothée Chalament)得到72分。另一个强大的竞争对手是完美的职业选手丹尼尔·戴-刘易斯(Daniel Day-Lewis),他以在《魅影缝将》中饰演的角色得到51分。

最佳女配角的5名提名中,模型偏爱艾莉森·珍妮(Allison Janney),她因为在《我,花样女王》(I, Tonya)中扮演的角色得到64分。

最佳男配角的竞争更激烈,不过,山姆 · 洛克威尔(Sam Rockwell)在《三块广告牌》上的角色显然更受欢迎,得到95分。威廉·达福(Willem Dafoe)凭借《弗罗里达项目》(The Florida Project )得到61分。

以上就是BigML对2018年奥斯卡金像奖的预测,它只预测了6项大奖,毫无疑问,6大奖项全中!BigML是一个简单易用的开发机器学习模型的平台,提供API,你也可以在上面设置数据源、创建数据库、创建模型,并得到基于数据的预测。

原文:https://blog.bigml.com/2018/03/01/predicting-the-2018-oscar-winners/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

韩家炜在数据挖掘上开辟的「小路」是什么

AI 科技评论按:前些日子,数据挖掘领域的巨擘韩家炜教授 [1] 在中国计算机学会(CCF)主办的第 87 期 CCF 学科前沿讲习班(CCF Advanced...

4598
来自专栏新智元

SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!(附视频)

随着AI技术进步的日新月异,现在的机器人越来越智能,但不管是机器人还是虚拟模型,基本都处于“赤身裸体”的状态,即便是穿了衣服,也是靠着外部的力量或帮助穿上的。

612
来自专栏机器之心

NAACL | 评价端到端生成式聊天系统,哈工大提出新型数据集 LSDSCC

得益于深度学习的发展,端到端的生成式聊天系统在模型层面的研究工作在近两到三年中取得了长足的进步 [1-5]。与之相比,对于生成结果的合理评价方法的探索则极为滞后...

1133
来自专栏大数据

数据可视化

今天我们来聊一波有趣的数据可视化。 首先,我们先讲一下我们今天要用到的数据。是来自于 http://www.stat.ubc.ca/~rickw/gapmind...

2428
来自专栏机器人网

机器人主要技术参数

 由于机器人的结构、用途和用户要求的不同,机器人的技术参数也不同。一般来说,机器人的技术参数主要包括自由度、工作范围、工作速度、承载能力、精度、驱动方式、控制方...

932
来自专栏测试开发架构之路

全息投影技术及其实现(附素材下载)

免责声明:文章部分内容来源于友站。 (编译:Torres)我们都一直期待能够用智能手机来投射出全息影像,不过显然现在的智能手机早就具备这样的潜质,只不过你还不知...

47812
来自专栏大数据文摘

分析全球最大美食点评网站万家餐厅数据 寻找餐厅经营成功的秘密

2257
来自专栏大数据文摘

儿童节 | 如何向5岁小朋友解释神经网络?这个Reddit回答获得了5k+赞

942
来自专栏智能计算时代

21个经典数据科学面试题及答案(上)

本文翻译自kdnuggets网站热文 21 Must-Know Data Science Interview Questions and Answers 本篇...

2483
来自专栏思影科技

PTSD的心理治疗对前额皮层功能的选择性影响

暴露疗法是创伤后应激障碍(PTSD)的有效治疗方法,但心理治疗究竟如何影响仍缺乏综合的、以情绪为重点理解。来自斯坦福大学精神病和行为科学部的Gregory A....

3929

扫码关注云+社区