教你如何用机器学习预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具备这种功能的机器学习算法用到热播美剧《权利的游戏》当中,我们需要这种算法具备更加细致的模型才能分辨出剧中的人物到底是“善”还是“恶”。但是如果一个人的“善”与“恶”的本性与生俱来,那该怎么办?如果他们的本性会随着岁月发生变化又该怎么办呢?如果你一时还无法预测他们是否会背叛你,但是却可以知道他们会在何时背叛你,你觉得这样的算法会不会很棒呢?

使用预测模型进行市场营销

在我们的团队为市场营销开发的预测模型当中,最为关键的挑战就是需要在某一个特定时间段进行预测。我们正在试图需找藏在这些数据背后的决定消费者何时会有购买意愿的精准时间点。我们从Airbnb那里得到了启发,我们为《权力的游戏》中虚构的人物形象开发了一个机器学习模型,并在其中添加了可以反映现实世界中销售难度的系数,这样就可以掌握消费者有购物需求的精准时间并做出及时的反应。如果假设一位潜在的买家实际上是来自维斯特洛的居民,然后你把“善”与“恶”的界限弄得含混不清,那么你不得不深思熟虑——每个人都有可能成为在任何时间潜伏在你周围的叛徒(你也可以理解为购买你的产品)。

因此,你怎样才能预测出他们什么时候才能叛变(或者采购)呢?我们的第一个挑战就是把我们培训所需数据——不同性格特征的人物所具有的各种行为活动列表,转变成可以被模型进行处理的人物性格特征数据。随后,我们用这些可以代表他们的个人性格特征的活动数据对他们进行预测。

行为评分方法

有一种方法可以用来计算和人物有关的行为数量,这种方式可以用来训练我们的预测模型(这种方法和营销自动化系统评分线索有些类似)。但不幸的是,这种方式还是无法帮助我们辨别活动是发生在过去还是发生在现在。如果想要预测发生在不久的将来的活动,这种分辨能力显得尤为关键。

从另一个角度而言,我们可能仅仅是关注那些刚发生不久的活动。这确实可以帮助我们不断保持数据的更新,并且可以解决那些古老的数据给评估带来的负面影响。但是如果一个人物在近期没有发生任何举动的话,我们该怎么办呢?我们仍然会通过他之前发生的行为对他进行评估。而且我们仍将会保留他最近的一些历史活动数据,因为发生在过去的某些貌似一次性的行为活动会转变成一种显著的模式(pattern),并对未来的决策制定产生影响。

我们可以从混合方法中获得好处。比如我们可以将这个模型中的人物发生在过去的活动与发生在近期的活动相结合。除此之外我们可以使用一系列不同的界面窗口对刚发生不久的活动进行有区别的处理。用这种方式可以让我们记住三周以前发生的行为,但是我们可以用不同的标准来衡量发生在昨天的行为。

追踪移动中的行为目标

请一定要记住,隐藏在人物背后的情感状态会随着时间发生改变。通过下面这张反映性格历史变化的图表,来看看人物性格特征背后隐藏的情感是如何影响我们的预测目标的:

你会发现在八月份的时候,根据他最近的行为模式,我们的模型认为他会在在这个期间叛变(购买产品)。尽管此事在我们的意料之中,但是他的忠诚度依然保持了数月之久。当然,他的背叛行为的确在潜移默化当中发生。既然人们的内心情感状态(他是否准备做出背叛行为)会随着时间发生改变,那么我们的模型也需要知道是否某些人将会发生背叛行为,这样的话我们就可以知道准确的反击时间。

模型评价思考:在一个时间序列内的评分与再评分

为了了解我们的模型是否能够准确的反映出人物的动机,每一个人物都应该被附加上可供参考的评分——我们需要评估他们到底有多高的信任度,并且这种供参考的评分要随着时间不断进行调整。但这样做会让我们的评价系统变得非常复杂,因为我们对于一个人物的“善”或者“恶”的看法会时过境迁,就像这些人物自己的行为动机也会不断发生改变一样。

当评分恢复水平状态之前,停留在峰值状态的时候,另一个问题将会浮出水面。误导性的预言的铺展可能会让我们对一些忠诚度极高的人物产生暂时的怀疑态度,因此我们要确保模型的评价功能一定要以整个时期的所有分数为着眼点。当我们对模型再次进行培训的时候,我们一定要对这些错误的评分进行惩处,并通过比较来发现哪一种模型相对更好。

为了评价一个模型的性能是否优良,我们仅仅需要考虑我们每次(每天或者每周)评价一个人物时所得出的分数,并观测这个模型在下一周将如何很好的推测出他们的行为。如果在某一周开始的时候,我们断言一个人物极有可能叛变,并且他正好在这一周的周四背叛了我们,那么这足以证明我们的模型运行良好,模型给出了积极正确的建议。但是如果这个人物仍旧没有在预测的那一周叛变,却直到下周的周四才发生背叛行为,那么我们的模型给出的建议就是错误的。在这种案例下,我们不得不考虑在下一周如何对这个人物进行评分。

结论:我们从这个启发当中有何收获?

从这个虚拟的案例当中,我们可以看到,如果想建立一个准确的行为评估模型,需要很多充分的思考和经验,并且需要借助正确的衡量方式才能决定出评分的准确性。当机器学习的时间跨度很长时,模型的监测工作就会变得尤为重要,并且要留心他可能会出现偏差。要时刻铭记,如果你的模型对同一个人物周而复始地做出的错误的判断,那么你的模型将要面临终结,,同时,这也在向你预示着你的模型需要更新。

如果你采用上文提到的每一点建议的话,那么你的行为评分模型会为你的各种商业需求带来机器有价值的帮助。你可以知道人们在什么时间做出什么事情是预测成功的关键所在。

SAS文本挖掘器让分析剧透

有这样两个分析学大咖,他们对美国作家乔治·R·R·马丁的奇幻小说《冰与火之歌》系列(HBO的电视剧‘权力的游戏’改编自该小说)异常热衷,而对于新一季的剧情发展更是好奇心爆棚,为了揭开心中谜团,他们毅然决定用自己的拿手绝活来窥测剧情走向。

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

一个关乎“权利”的文本分析就此诞生。他们的创造者就是上面所提到的狂热大咖Gross和Naraharirao,两人都在LSU攻读分析学硕士学位。

而这篇对“权利”的分析,成为了路易斯安那州立大学2015年SCSUG教育论坛的学生研讨会上最具创意的亮点之一。

利用SAS文本聚类和因子分析技术解析剧本特征,基于常用词来计算角色人数,基于角色间的互动来分析彼此关系。数据技术将“权利”庞大的故事网络展现出来,听起来似乎很复杂,不过利用SAS文本聚类和因子分析技术解析剧本特征,让一切变得简单。

在分析中他们用到了SAS文本挖掘器的一系列功能节点,包括文本导入、文本解析、文本过滤、文本特征、文本聚类、文本主题(用于模式发现)。

他们还用到了SAS企业级数据挖掘器的一系列功能节点,包括数据过滤、数据分区、元数据、回归、数据保存等,用于数据处理和预测建模。

“借助SAS企业级数据挖掘器简单直观地操作,呈现如此庞大的故事脉络竟然如此之快。”–Naraharirao

“你可能觉得你已经很熟悉这个故事了,但是文本分析总能给你带来新的惊喜”Gross说道。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏灯塔大数据

探秘|人工智能技术是基于大数据吃饭的?

自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成...

27310
来自专栏量子位

一群学术大牛做了份机器学习新期刊Distill:让学术论文可交互

王新民 李林 编译整理 量子位·QbitAI 出品 机器学习研究几乎每周都有新进展,不过,这些新进展变成论文呈现在我们眼前的方式,可以说是百余年不变。 昨天,G...

2384
来自专栏新智元

DeepMind后继有人,图式网络通用性完胜AlphaGo?

【新智元导读】一家名为 Vicarious 的初创公司开发出了一个新的具有突破意义的 AI,名为“图式网络”(Schema Network)。这一网络被用来和 ...

3228
来自专栏大数据文摘

上传你的大脑:会有那么一天吗?

2417
来自专栏机器之心

深度 | 以人为本的机器学习:谷歌人工智能产品设计概述

选自Google Design 作者:Jess Holbrook 机器之心编译 参与:王宇欣、林静、李泽南 取代了手动编程,机器学习(ML)是一种帮助计算机发...

2464
来自专栏灯塔大数据

预测分析|机器学习是如何预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具...

3435
来自专栏新智元

人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?

DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的战绩击败冠军级围棋选手李世石,并借此向世人宣告人工智能技术已经攻克围...

3396
来自专栏钱塘大数据

没有大数据就没有人工智能?

自从 Google 的人工智能 AlphaGO 成为围棋界的百胜将军开始,AI(Artificial Intelligence,人工智能)这两个英文字,刹那间成...

2765
来自专栏大数据文摘

AI迷路了怎么办?Facebook正在训练AI学会问路

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

410
来自专栏大数据挖掘DT机器学习

为何机器学习的黄金时代才刚刚来临

虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了...

3216

扫码关注云+社区