前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据显示好莱坞从没使用过一样的剧情(真实的数据分析研究案例)

大数据显示好莱坞从没使用过一样的剧情(真实的数据分析研究案例)

作者头像
灯塔大数据
发布2018-04-04 15:43:48
9390
发布2018-04-04 15:43:48
举报
文章被收录于专栏:灯塔大数据

导读:我的一个学生提出了一个有趣的问题。在众多动作电影中,是否存在某些特定的剧情元素和票房有关联呢?这个问题是可以解决的,因为我们的数据库中有一个叫‘剧情关键词’的变量。(文末更多往期译文推荐)

关键词是在单一的一列中作为pipe-delimited格式给出的.举个例子,有一栏有这些关键词

“加勒比/诅咒/总督/海盗/不死人”。听起来像是Johnny Depp的电影。

当然,第一步工作是把关键词分开。我们需要把这些单词转换成虚拟变量(有加勒比记为1,没有则是0).所有的分析软件都有这样的功能。如果用Python,可以使用Split函数。如果用JMP,有一个很好的内置函数可以将这种格式转化为虚拟变量,只需要点击一次即可。

现在关键词已经转化为超过1000列了,每一列都和一个具体的关键词有关。

理论上,我们可以用回归分析,树状分析或者其他任何我们喜欢的方法。

如果这很简单,我就不会说这个了。像常说的一样,我们必须注意我们的数据。我分析了一些统计分布,但有些让我困惑的内容。

如果数据是可信的,现在的结果是 "abduction(绑架)" and "action hero(动作英雄)等词在400部动作电影数据库中只出现了一至两次。

下面是关键词出现频率的整个柱状图。

只有大约二十个关键词在至少10部电影里出现过: Murder. FBI. Police.Scientist. Assassin. Death. Alien. Future. Battle. CIA. Rescue. Spy. Superhero.Warrior. Escape. Martial Arts. Prison. Revenge. Terrorist. Vampire.(谋杀,美国联邦调查局,警察,科学家,杀手, 死亡。外国人。未来。战斗。中央情报局。拯救。间谍。超级英雄。战士。逃逸。武术。监狱。复仇。恐怖分子。吸血鬼 ...)

这时候分析师脑子里的警报就该打响了。只有11部电影和吸血鬼有关?11部和武术有关?12部和超级英雄有关?

我让我的学生查看这些数据是怎么被收集的。去看关键词是否有一些特殊的筛选条件。去IMDB的网页上查看代码究竟在做什么。

最后我们发现了什么?(你发现问题了吗!)这里是一个IMDB的截图,我们从这个网页上获得加勒比海盗的关键词。

我有一个点开我想点开链接的坏习惯。所以我点了‘查看所有’。一个新的世界出现在了我眼前!

所以说,Kaggle里关键词数据库是完全没用的。Kaggle包括了五到六个关键词,而每部电影整个列表有一百多个关键词。这至少部分解释了为什么关键词出现的这么特别,少有重复。

一想到有多少人用这个数据库分析时,我就很受伤,他们还用这个错误的数据库建模研究。

回到课堂作业上,这个学生现在有麻烦了!记住她要解决的问题是找到哪些剧情元素和关键词有关,哪些关键词可以预测剧情。现在这些关键词确实严重,我们要立即改变方向,解决一个不需要使用关键词的问题。

文章翻译:灯塔大数据 文章编辑:柯一

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档