【会建模你也能当奥斯卡评委】机器学习预测奥斯卡6大奖项全中！

新智元

发布于 2018-03-12 15:39:31

7800

发布于 2018-03-12 15:39:31

文章被收录于专栏：新智元

新智元编译

来源：blog.bigml.com

编译：肖琴

【新智元导读】自去年成功预测第89届奥斯卡8项大奖后，机器学习和数据分析平台BigML再次公布今年的大奖预测结果。今年，利用新的Deepnet模型，BigML预测奥斯卡金像奖的最佳影片、最佳导演、最佳男主角、最佳女主角、最佳女配角和最佳男配角六大奖项，全部预测正确！

今年《水形物语》（The Shape of Water）获得13项提名，显然是最受欢迎的影片，但我们也看到一系列高质量的独立作品与大作之间的激烈竞争。不过，机器学习模型可不在乎这些，因为它们不仅仅跟随评论家的观点。相反，它们根据过去获奖的电影来搜索模式，然后对今年的提名进行预测。

那么，数据来自哪里？

数据

理论上，模型会随着数据增加而变得更好。因此，今年我们保留了去年的所有预测数据和特征。包括从2000年到2017年的共计1183部电影，每部电影有100多种特征，包括：

电影的特点，例如持续时间，预算和流派。
IMDB中的电影评价数据，如投票、评级和Metascore。
今年的20个主要电影奖项的提名和获奖者，包括金球奖、英国电影学院奖、美国演员工会奖和评论家选择奖。

今年数据的唯一重大变化是从IMDB中删除了全部用户评论，因为在去年的模型中，这些数据被证明是不重要的，需要花很多功夫获取评论数据。

模型

像去年一样，我们为每个奖项类别训练一个单独的模型。不同的一点是，今年我们使用Deepnet，这是一个深度神经网络，而不是去年使用的集成模型（ensembles）。使用BigML deepnet及其独特的强大自动优化选项（“自动网络搜索”）是确保构建性能最佳的分类器的最简单、最安全的方式。因为几十个不同的网络同时在后台训练，每个模型只需要大约30分钟的训练时间，但是因为最终的模型需要通过试错来优化，仍然需要大量时间。

deepnet创建好后，我们可以很容易地检查模型最重要的特性以及它们分别对预测的影响。例如，在预测最佳影片时，我们可以在高排名的候选里发现多个奖项，例如评论家选择奖、在线电影电视奖、好莱坞电影奖和英国电影学院奖。为了让DNN更易于解释，BigML提供了一个独特的deepnet可视化工具，即局部依赖图（Partial Dependence Plot），用以分析各个特征对预测的边际影响。

我们使用2000年到2012年间的电影来训练模型，然后使用2013年至2016年间的电影数据评估模型。在所有奖项类别中，我们得到超过0.98的ROC AUC，这意味着模型能够连续四年(2013年至2016年)预测获奖者，很少有错误。例如下方预测最佳女主角的混乱矩阵，它能准确预测出4个测试年份中的3个。

预测

接下来让我们预测2018年的奥斯卡获奖影片！

对于每个奖项，模型给出了获奖者和其他提名影片预测的分数。

《水形物语》以91分被预测为最佳影片。不过模型也给其他提名影片不错的分数，《三块广告牌》得到68分。

对于最佳导演奖，模型没有任何犹豫。 吉列尔莫·德尔·托罗（ Guillermo del Toro ）得到最接近获奖的75分，其他提名人的分数没有接近他的。

同样，对于最佳女主角奖项，似乎也不存在竞争。 Frances McDormand得到99分，毫无疑问是最受欢迎的。其他候选人的分数远远落后，Margot Robbie只得到5分。

加里·奥德曼（Gary Oldman）凭借在《黑暗时刻》中饰演的温斯顿·丘吉尔精彩表演，以88分的成绩被预测为最佳男主角得主。不过，在《请以你的名字呼唤我》（Call Me By Your Name）中饰演艾力奥的后起之秀提莫西 · 查拉梅（Timothée Chalament）得到72分。另一个强大的竞争对手是完美的职业选手丹尼尔·戴-刘易斯（Daniel Day-Lewis），他以在《魅影缝将》中饰演的角色得到51分。