【会建模你也能当奥斯卡评委】机器学习预测奥斯卡6大奖项全中!


新智元编译

来源:blog.bigml.com

编译:肖琴

【新智元导读】自去年成功预测第89届奥斯卡8项大奖后,机器学习和数据分析平台BigML再次公布今年的大奖预测结果。今年,利用新的Deepnet模型,BigML预测奥斯卡金像奖的最佳影片、最佳导演、最佳男主角、最佳女主角、最佳女配角和最佳男配角六大奖项,全部预测正确!

今年《水形物语》(The Shape of Water)获得13项提名,显然是最受欢迎的影片,但我们也看到一系列高质量的独立作品与大作之间的激烈竞争。不过,机器学习模型可不在乎这些,因为它们不仅仅跟随评论家的观点。相反,它们根据过去获奖的电影来搜索模式,然后对今年的提名进行预测。

那么,数据来自哪里?

数据

理论上,模型会随着数据增加而变得更好。因此,今年我们保留了去年的所有预测数据和特征。包括从2000年到2017年的共计1183部电影,每部电影有100多种特征,包括:

  • 电影的特点,例如持续时间,预算和流派。
  • IMDB中的电影评价数据,如投票、评级和Metascore。
  • 今年的20个主要电影奖项的提名和获奖者,包括金球奖、英国电影学院奖、美国演员工会奖和评论家选择奖。

今年数据的唯一重大变化是从IMDB中删除了全部用户评论,因为在去年的模型中,这些数据被证明是不重要的,需要花很多功夫获取评论数据。

模型

像去年一样,我们为每个奖项类别训练一个单独的模型。不同的一点是,今年我们使用Deepnet,这是一个深度神经网络,而不是去年使用的集成模型(ensembles)。使用BigML deepnet及其独特的强大自动优化选项(“自动网络搜索”)是确保构建性能最佳的分类器的最简单、最安全的方式。因为几十个不同的网络同时在后台训练,每个模型只需要大约30分钟的训练时间,但是因为最终的模型需要通过试错来优化,仍然需要大量时间。

deepnet创建好后,我们可以很容易地检查模型最重要的特性以及它们分别对预测的影响。例如,在预测最佳影片时,我们可以在高排名的候选里发现多个奖项,例如评论家选择奖、在线电影电视奖、好莱坞电影奖和英国电影学院奖。为了让DNN更易于解释,BigML提供了一个独特的deepnet可视化工具,即局部依赖图(Partial Dependence Plot),用以分析各个特征对预测的边际影响。

我们使用2000年到2012年间的电影来训练模型,然后使用2013年至2016年间的电影数据评估模型。在所有奖项类别中,我们得到超过0.98的ROC AUC,这意味着模型能够连续四年(2013年至2016年)预测获奖者,很少有错误。例如下方预测最佳女主角的混乱矩阵,它能准确预测出4个测试年份中的3个。

预测

接下来让我们预测2018年的奥斯卡获奖影片!

对于每个奖项,模型给出了获奖者和其他提名影片预测的分数。

《水形物语》以91分被预测为最佳影片。不过模型也给其他提名影片不错的分数,《三块广告牌》得到68分。

对于最佳导演奖,模型没有任何犹豫。 吉列尔莫·德尔·托罗( Guillermo del Toro )得到最接近获奖的75分,其他提名人的分数没有接近他的。

同样,对于最佳女主角奖项,似乎也不存在竞争。 Frances McDormand得到99分,毫无疑问是最受欢迎的。其他候选人的分数远远落后,Margot Robbie只得到5分。

加里·奥德曼(Gary Oldman)凭借在《黑暗时刻》中饰演的温斯顿·丘吉尔精彩表演,以88分的成绩被预测为最佳男主角得主。不过,在《请以你的名字呼唤我》(Call Me By Your Name)中饰演艾力奥的后起之秀提莫西 · 查拉梅(Timothée Chalament)得到72分。另一个强大的竞争对手是完美的职业选手丹尼尔·戴-刘易斯(Daniel Day-Lewis),他以在《魅影缝将》中饰演的角色得到51分。

最佳女配角的5名提名中,模型偏爱艾莉森·珍妮(Allison Janney),她因为在《我,花样女王》(I, Tonya)中扮演的角色得到64分。

最佳男配角的竞争更激烈,不过,山姆 · 洛克威尔(Sam Rockwell)在《三块广告牌》上的角色显然更受欢迎,得到95分。威廉·达福(Willem Dafoe)凭借《弗罗里达项目》(The Florida Project )得到61分。

以上就是BigML对2018年奥斯卡金像奖的预测,它只预测了6项大奖,毫无疑问,6大奖项全中!BigML是一个简单易用的开发机器学习模型的平台,提供API,你也可以在上面设置数据源、创建数据库、创建模型,并得到基于数据的预测。

原文:https://blog.bigml.com/2018/03/01/predicting-the-2018-oscar-winners/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 谷歌联手斯坦福等高校研究电子病历,深度学习准确预测病人病程

AI 科技评论消息,谷歌在 ArXiv 上公开了一篇论文,也很可能是谷歌使用深度学习模型在电子病历建模分析方面的首篇文章。这篇论文由「编译器从不警告Jeff,J...

5019
来自专栏新智元

【干货】如何成为深度学习专家的七大步骤

首先为用Buzz做为点击标题的诱饵道歉,但是它确实是起到了一定的作用,并且吸引了大批读者来阅读此文章。 在我们的工作中,经常被问及的问题之一就是“从哪里开始学习...

3668
来自专栏大数据文摘

一文打尽人工智能和机器学习网络资源,反正我已经收藏了!

1343
来自专栏大数据文摘

模型调参:压力也没那么大,试了一圈还是得靠贝叶斯

2382
来自专栏量子位

变性、衰老、染发后长啥样?简易版StarGAN全知道 | 代码

昨天,网友taki0112公布了一个简易版StarGAN TensorFlow实现,不到一天时间就在Reddit论坛上热度暴增到700。

1142
来自专栏MixLab科技+设计实验室

人工智能设计师之“模仿”能力

今天更新一篇文章,往期《人工智能设计师系列》,可查阅: 人工智能设计师之智能排版的另一种实现方式 电影封面海报个性化推荐+人工智能设计师 聊聊人工智能建筑师 人...

3197
来自专栏机器之心

解读 | 起底语音对抗样本:语音助手危险了吗?

3316
来自专栏麻文华的专栏

证件识别技术进化史

当我们在手机APP端绑定银行卡、认证个人资料时,用拍照代替手工录入,手机神奇滴识别了我们的证件类型和格式,并从中找到了它所想要的信息,这一点是否也是很智能的呢?

1.6K1
来自专栏思影科技

语言网络的短期迅速重组

来自德国马克斯普朗克研究所(Max Planck Institute,Germany)的Gesa Hartwigsen等人在eLIFE期刊上发表了一片文章,研究...

2868
来自专栏AI科技评论

EMNLP 2018 详尽参会见闻

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

1302

扫码关注云+社区