导读:我的一个学生提出了一个有趣的问题。在众多动作电影中,是否存在某些特定的剧情元素和票房有关联呢?这个问题是可以解决的,因为我们的数据库中有一个叫‘剧情关键词’的变量。(文末更多往期译文推荐)
关键词是在单一的一列中作为pipe-delimited格式给出的.举个例子,有一栏有这些关键词
“加勒比/诅咒/总督/海盗/不死人”。听起来像是Johnny Depp的电影。
当然,第一步工作是把关键词分开。我们需要把这些单词转换成虚拟变量(有加勒比记为1,没有则是0).所有的分析软件都有这样的功能。如果用Python,可以使用Split函数。如果用JMP,有一个很好的内置函数可以将这种格式转化为虚拟变量,只需要点击一次即可。
现在关键词已经转化为超过1000列了,每一列都和一个具体的关键词有关。
理论上,我们可以用回归分析,树状分析或者其他任何我们喜欢的方法。
如果这很简单,我就不会说这个了。像常说的一样,我们必须注意我们的数据。我分析了一些统计分布,但有些让我困惑的内容。
如果数据是可信的,现在的结果是 "abduction(绑架)" and "action hero(动作英雄)等词在400部动作电影数据库中只出现了一至两次。
下面是关键词出现频率的整个柱状图。
只有大约二十个关键词在至少10部电影里出现过: Murder. FBI. Police.Scientist. Assassin. Death. Alien. Future. Battle. CIA. Rescue. Spy. Superhero.Warrior. Escape. Martial Arts. Prison. Revenge. Terrorist. Vampire.(谋杀,美国联邦调查局,警察,科学家,杀手, 死亡。外国人。未来。战斗。中央情报局。拯救。间谍。超级英雄。战士。逃逸。武术。监狱。复仇。恐怖分子。吸血鬼 ...)
这时候分析师脑子里的警报就该打响了。只有11部电影和吸血鬼有关?11部和武术有关?12部和超级英雄有关?
我让我的学生查看这些数据是怎么被收集的。去看关键词是否有一些特殊的筛选条件。去IMDB的网页上查看代码究竟在做什么。
最后我们发现了什么?(你发现问题了吗!)这里是一个IMDB的截图,我们从这个网页上获得加勒比海盗的关键词。
我有一个点开我想点开链接的坏习惯。所以我点了‘查看所有’。一个新的世界出现在了我眼前!
所以说,Kaggle里关键词数据库是完全没用的。Kaggle包括了五到六个关键词,而每部电影整个列表有一百多个关键词。这至少部分解释了为什么关键词出现的这么特别,少有重复。
一想到有多少人用这个数据库分析时,我就很受伤,他们还用这个错误的数据库建模研究。
回到课堂作业上,这个学生现在有麻烦了!记住她要解决的问题是找到哪些剧情元素和关键词有关,哪些关键词可以预测剧情。现在这些关键词确实严重,我们要立即改变方向,解决一个不需要使用关键词的问题。
文章翻译:灯塔大数据 文章编辑:柯一