五个你想不到的数据科学案例——权力的游戏、红酒的游戏和更多游戏

五个你想不到的数据科学案例

——权力的游戏、红酒的游戏和更多游戏

你懂的,说到数据科学,我们总会说它对社会有多么重要。这个改变人生的、颠覆规则的、激动人心的科技,可以一次性彻底改变我们的生活。

我非常认可数据科学的高大上用途。并且,我对它能够帮助人类并让世界变得更美好而心存感激。

但是,就像我们既可以用语言来书写激励人们拿起武器来战斗的演讲,也可以用语言来创造让人哈哈大笑的段子和喜剧,我们不仅可以用数据科学来拯救地球,也可以来找点乐子。

为什么不呢?

所以,我决定收集五个有趣的数据科学应用案例。下面就来看看吧。

1、从数据科学的角度,预测《权力的游戏》最终季中谁会领便当

「考虑到那些害怕被剧透的人,这里是剧透预警」

“权力的游戏”可以正式改名“死亡的游戏”了。从第一季眼睁睁看着Ned Stark被杀开始,我们已经知道即使主角也不安全。

从那时候起,剧中就开始了各种无法预测、令人震惊的集体死亡。真心无法预测谁将下一个领便当。

看上去是这样的。

有人开始尝试用数据科学来预测,接下来谁将死在这部HBO史诗级剧集中。其中最靠谱的是,Taylor Larkin写了一个算法来预测“权力的游戏”下一个领便当的角色。

他用原著《冰与火之歌》作为剧集走向的基础参考,并采用了粉丝创建的这部剧的wiki作为数据来源。由于是基于原著,Larkin对死亡角色的预测会与实际剧集中有所不同。

下面是下一季剧中各角色的死亡概率:

龙妈Daenerys Targaryen——83.77%

弑君者Jaime Lannister——72.91%

小恶魔Tyrion Lannister——70.76%

布兰Bran Stark——66.02%

瑟曦Cersei Lannister——60.39%

什么都不懂Jon Snow——58.99%(他不是已经死了吗,啊喂?)

攸伦Euron Greyjoy——54.95%

三傻 Sansa Stark–50.28%

二丫Arya Stark–49.04%

詹德利Gendry–39.87%

我非常喜欢这种创造性的数据科学应用方式。并且非常期待能在第八季中验证这些预测哪个将成真。

2、体育比赛结果预测:雪城大学战胜密歇根州立大学

帮没关注NCAA(National Collegiate Athletic Association,美国大学生篮球联赛)的人预习一下。这次巡回赛从一开始就出人意料。可以说,第一轮中最让人震惊的事情就是雪城大学战胜了密歇根州立大学。

没人预料到这样的情况会发生。事实上,专家预测密歇根州立大学队有80%的几率会赢得这场比赛,并且最终进入前四名。这支队伍在全国排名中名列前茅。

所以,大家都觉得雪城大学这只明显处于下风的队伍丝毫没有获胜的可能。好吧,并不是每个人都这么想。

一位名为Matt Worley的数据科学家,开发了一个模型来预测比赛结果。他惊诧的发现预测结果是——雪城大学 有81%的几率获胜。

这个算法基于对以下数据的分析:

两队的比赛日程;

两队教练的经验;

比赛战术(两队在进攻和防守方面的评分);

如果你想详细了解这个算法,可以到这里(https://towardsdatascience.com ... 96fa4)阅读TDS对其的报道。

3、用Swift开发的Taylor Swift检测器

想来场恋爱游戏吗?

Taylor Swift现在可是炙手可热。她拥有六张成功的唱片、六场售空的演出和10座格莱美奖杯,到处都可以看得到她。所以,如果你在Google随机搜索一张图片,例如关键词“一位女性”、“化妆”、“女生发型”,你都可能会在搜索结果中看到Swift。

想验证一下吗?

Sara Robinson,这位数据科学家和开发者就这么做了。她开发了一款名叫“找到Taylor”的检测器。为了开发这款检测器,她用到了Tensor Flow的目标检测、机器学习引擎和(猜得没错)Swift。

这位数据科学家首先要保证这款检测器能够识别面部,之后便开始用Swift进行检测器的开发。起初,她下载了200张Taylor Swift的照片。随后,她创建了数据集并对以“tswift”为名的目标进行位置标记。

Sara Robinson将图片转为了TensorFlow支持的格式TFRecord。

其实,比起由我来试着介绍这款检测器,不如直接去看看Sara Robinson亲自撰写的Swift detector 开发步骤详解教程——构建面部识别算法的基础指南(https://towardsdatascience.com ... b4a56)。

4、红酒的游戏——基于机器学习和数据科学的红酒品质检测器

想喝到最棒的红酒吗?让我们来检测一下!

(检测)饮用水的质量非常重要,它帮助我们拯救非洲儿童,或者说,所有儿童。不过,所有事情都可以找到乐趣,对吧?这个乐趣通常与爆米花、一杯红酒与一场好电影相伴。

如果说水质检测是需要我们持续改善的重要课题,那红酒品质检测则是令人愉悦的番外课题。我猜,Ashvin Hariharan在开发“红酒的游戏”时是这么想的。

在Ashvin的文章中(https://medium.freecodecamp.or ... 7480d),他在介绍如何开发这个检测器时分享了非常有价值的经验。并且,我觉得他的写作风格和版式也非常有趣。

5、谁将是奥斯卡大赢家?——数据科学的预测

如果你在寻找一个有趣的方式来实践数据科学,试试去预测某个久负盛名的奖项——格莱美、MVP,或者,在这个案例中尝试的是奥斯卡。

为了能够成功预测出(最佳影片的)赢家是谁,一个数据科学家团队收集了关于提名影片的所有能收集到的数据。通过这些必要的数据来构建数据集,并使用SciKit进行开发。

随后,他们通过9个是非题对所有提名影片使用随机森林进行分类。

对每部影片进行分析后,答案就很明确了——“水形物语”的获奖可能性要高于其他所有影片。

请注意,用该算法(所得出的预测)要远远早于颁奖礼。虽然不能拯救人类,但这个案例体现了深度学习和数据科学在预测未来发生的决策上的能力。

总结一下:

对数据科学的应用不仅可以带来重要的进步,也可以在一些格外有意思的事情上找到乐趣。

其中的某些算法可能看上去不太正经。有人会问,预测“权力的游戏”的死亡角色能有啥用处?但是,ta可能是错的。

通过这些“不正经”的数据科学应用,我们能够在无需背负责任和巨大资金压力的情况下自由的进行尝试。其实,所有重要发现和伟大想法不正是由几个极客在玩耍中创造出的嘛?

所以让我想想,我们下一个该预测什么呢。或许是彩虹糖的新口味?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180522G1C3C500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券