大数据显示好莱坞从没使用过一样的剧情(真实的数据分析研究案例)

导读:我的一个学生提出了一个有趣的问题。在众多动作电影中,是否存在某些特定的剧情元素和票房有关联呢?这个问题是可以解决的,因为我们的数据库中有一个叫‘剧情关键词’的变量。(文末更多往期译文推荐)

关键词是在单一的一列中作为pipe-delimited格式给出的.举个例子,有一栏有这些关键词

“加勒比/诅咒/总督/海盗/不死人”。听起来像是Johnny Depp的电影。

当然,第一步工作是把关键词分开。我们需要把这些单词转换成虚拟变量(有加勒比记为1,没有则是0).所有的分析软件都有这样的功能。如果用Python,可以使用Split函数。如果用JMP,有一个很好的内置函数可以将这种格式转化为虚拟变量,只需要点击一次即可。

现在关键词已经转化为超过1000列了,每一列都和一个具体的关键词有关。

理论上,我们可以用回归分析,树状分析或者其他任何我们喜欢的方法。

如果这很简单,我就不会说这个了。像常说的一样,我们必须注意我们的数据。我分析了一些统计分布,但有些让我困惑的内容。

如果数据是可信的,现在的结果是 "abduction(绑架)" and "action hero(动作英雄)等词在400部动作电影数据库中只出现了一至两次。

下面是关键词出现频率的整个柱状图。

只有大约二十个关键词在至少10部电影里出现过: Murder. FBI. Police.Scientist. Assassin. Death. Alien. Future. Battle. CIA. Rescue. Spy. Superhero.Warrior. Escape. Martial Arts. Prison. Revenge. Terrorist. Vampire.(谋杀,美国联邦调查局,警察,科学家,杀手, 死亡。外国人。未来。战斗。中央情报局。拯救。间谍。超级英雄。战士。逃逸。武术。监狱。复仇。恐怖分子。吸血鬼 ...)

这时候分析师脑子里的警报就该打响了。只有11部电影和吸血鬼有关?11部和武术有关?12部和超级英雄有关?

我让我的学生查看这些数据是怎么被收集的。去看关键词是否有一些特殊的筛选条件。去IMDB的网页上查看代码究竟在做什么。

最后我们发现了什么?(你发现问题了吗!)这里是一个IMDB的截图,我们从这个网页上获得加勒比海盗的关键词。

我有一个点开我想点开链接的坏习惯。所以我点了‘查看所有’。一个新的世界出现在了我眼前!

所以说,Kaggle里关键词数据库是完全没用的。Kaggle包括了五到六个关键词,而每部电影整个列表有一百多个关键词。这至少部分解释了为什么关键词出现的这么特别,少有重复。

一想到有多少人用这个数据库分析时,我就很受伤,他们还用这个错误的数据库建模研究。

回到课堂作业上,这个学生现在有麻烦了!记住她要解决的问题是找到哪些剧情元素和关键词有关,哪些关键词可以预测剧情。现在这些关键词确实严重,我们要立即改变方向,解决一个不需要使用关键词的问题。

文章翻译:灯塔大数据 文章编辑:柯一

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2017-08-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

从TeslaAP2.0/2.5运算单元看未来无人驾驶域控制器的设计趋势

新智驾按:本文来自未来出行服务商新悦智行联合创始人&CEO徐超、联合创始人&CTO李林峰的技术详解。新悦智行目前业务线包括新能源整车和L3级无人驾驶整合方案。...

26220
来自专栏程序员宝库

数据 | 基于 Python 分析微信好友数据

最近微信迎来了一次重要的更新,允许用户对"发现"页面进行定制。不知道从什么时候开始,微信朋友圈变得越来越复杂,当越来越多的人选择"仅展示最近三天的朋友圈",大概...

26840
来自专栏Data Analysis & Viz

爬取老树画画全部微博数据:三千诗与画

本次用fiddler抓包移动端(ipad)微博,再用python爬虫获取老树画画微博几乎全部内容。因为老树画画发布的微博结构较为简单,几乎都是:一幅画,配上一段...

17140
来自专栏web前端教室

学习前端开发,至少有50%是无用功,现在你到%几了?

我记得有一个广告行业的牛人说过,“至少有一半的广告费都是白费的,但我不知道是哪一半”。他叫什么名字我忘记了,只记得这句话。 后来我发现这句话也适合于前端学习,至...

24150
来自专栏IT技术精选文摘

Netflix最新视频优化实践:用更少的带宽打造完美画质

马赛克、模糊、扭曲的面孔和物体……糟糕的图像质量会大幅降低观众通过Netflix观赏喜爱的剧集或电影时的观赏体验。很多情况下,网络带宽不足或数据限流会导致我们无...

33640
来自专栏CDA数据分析师

如何用 Python 爬取自己的微信朋友

微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证,拥有它就能...

31790
来自专栏ThoughtWorks

如何快速读Paper

自从上次介绍了去哪里找paper之后,大家问我的问题就常常变成了:如何快速阅读一篇paper并准确的提取其中有用的信息。在本文中,我将试图为大家简要解答这个问题...

32420
来自专栏杨建荣的学习笔记

推荐几个不错的Python资源

周末翻了下书,突然想起一个问题,23个设计模式在Python中是如何体现的,虽然Python里面没有接口,但是设计模式不是重依赖于具体的语言。所以心血来潮,就速...

45070
来自专栏ATYUN订阅号

上辈子是运动员?一款人脸识别AI应用检测你与哪个世界杯运动员长得最像

挪威新闻机构VG团队开发了一款全新的AI工具,使用面部识别技术,来查找与你的长相最为相似的足球运动员。

11270
来自专栏企鹅号快讯

用python爬取自己的朋友圈,得到的信息超过你的想象!

微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证,拥有它就能...

638100

扫码关注云+社区

领取腾讯云代金券