教你如何用机器学习预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具备这种功能的机器学习算法用到热播美剧《权利的游戏》当中,我们需要这种算法具备更加细致的模型才能分辨出剧中的人物到底是“善”还是“恶”。但是如果一个人的“善”与“恶”的本性与生俱来,那该怎么办?如果他们的本性会随着岁月发生变化又该怎么办呢?如果你一时还无法预测他们是否会背叛你,但是却可以知道他们会在何时背叛你,你觉得这样的算法会不会很棒呢?

使用预测模型进行市场营销

在我们的团队为市场营销开发的预测模型当中,最为关键的挑战就是需要在某一个特定时间段进行预测。我们正在试图需找藏在这些数据背后的决定消费者何时会有购买意愿的精准时间点。我们从Airbnb那里得到了启发,我们为《权力的游戏》中虚构的人物形象开发了一个机器学习模型,并在其中添加了可以反映现实世界中销售难度的系数,这样就可以掌握消费者有购物需求的精准时间并做出及时的反应。如果假设一位潜在的买家实际上是来自维斯特洛的居民,然后你把“善”与“恶”的界限弄得含混不清,那么你不得不深思熟虑——每个人都有可能成为在任何时间潜伏在你周围的叛徒(你也可以理解为购买你的产品)。

因此,你怎样才能预测出他们什么时候才能叛变(或者采购)呢?我们的第一个挑战就是把我们培训所需数据——不同性格特征的人物所具有的各种行为活动列表,转变成可以被模型进行处理的人物性格特征数据。随后,我们用这些可以代表他们的个人性格特征的活动数据对他们进行预测。

行为评分方法

有一种方法可以用来计算和人物有关的行为数量,这种方式可以用来训练我们的预测模型(这种方法和营销自动化系统评分线索有些类似)。但不幸的是,这种方式还是无法帮助我们辨别活动是发生在过去还是发生在现在。如果想要预测发生在不久的将来的活动,这种分辨能力显得尤为关键。

从另一个角度而言,我们可能仅仅是关注那些刚发生不久的活动。这确实可以帮助我们不断保持数据的更新,并且可以解决那些古老的数据给评估带来的负面影响。但是如果一个人物在近期没有发生任何举动的话,我们该怎么办呢?我们仍然会通过他之前发生的行为对他进行评估。而且我们仍将会保留他最近的一些历史活动数据,因为发生在过去的某些貌似一次性的行为活动会转变成一种显著的模式(pattern),并对未来的决策制定产生影响。

我们可以从混合方法中获得好处。比如我们可以将这个模型中的人物发生在过去的活动与发生在近期的活动相结合。除此之外我们可以使用一系列不同的界面窗口对刚发生不久的活动进行有区别的处理。用这种方式可以让我们记住三周以前发生的行为,但是我们可以用不同的标准来衡量发生在昨天的行为。

追踪移动中的行为目标

请一定要记住,隐藏在人物背后的情感状态会随着时间发生改变。通过下面这张反映性格历史变化的图表,来看看人物性格特征背后隐藏的情感是如何影响我们的预测目标的:

你会发现在八月份的时候,根据他最近的行为模式,我们的模型认为他会在在这个期间叛变(购买产品)。尽管此事在我们的意料之中,但是他的忠诚度依然保持了数月之久。当然,他的背叛行为的确在潜移默化当中发生。既然人们的内心情感状态(他是否准备做出背叛行为)会随着时间发生改变,那么我们的模型也需要知道是否某些人将会发生背叛行为,这样的话我们就可以知道准确的反击时间。

模型评价思考:在一个时间序列内的评分与再评分

为了了解我们的模型是否能够准确的反映出人物的动机,每一个人物都应该被附加上可供参考的评分——我们需要评估他们到底有多高的信任度,并且这种供参考的评分要随着时间不断进行调整。但这样做会让我们的评价系统变得非常复杂,因为我们对于一个人物的“善”或者“恶”的看法会时过境迁,就像这些人物自己的行为动机也会不断发生改变一样。

当评分恢复水平状态之前,停留在峰值状态的时候,另一个问题将会浮出水面。误导性的预言的铺展可能会让我们对一些忠诚度极高的人物产生暂时的怀疑态度,因此我们要确保模型的评价功能一定要以整个时期的所有分数为着眼点。当我们对模型再次进行培训的时候,我们一定要对这些错误的评分进行惩处,并通过比较来发现哪一种模型相对更好。

为了评价一个模型的性能是否优良,我们仅仅需要考虑我们每次(每天或者每周)评价一个人物时所得出的分数,并观测这个模型在下一周将如何很好的推测出他们的行为。如果在某一周开始的时候,我们断言一个人物极有可能叛变,并且他正好在这一周的周四背叛了我们,那么这足以证明我们的模型运行良好,模型给出了积极正确的建议。但是如果这个人物仍旧没有在预测的那一周叛变,却直到下周的周四才发生背叛行为,那么我们的模型给出的建议就是错误的。在这种案例下,我们不得不考虑在下一周如何对这个人物进行评分。

结论:我们从这个启发当中有何收获?

从这个虚拟的案例当中,我们可以看到,如果想建立一个准确的行为评估模型,需要很多充分的思考和经验,并且需要借助正确的衡量方式才能决定出评分的准确性。当机器学习的时间跨度很长时,模型的监测工作就会变得尤为重要,并且要留心他可能会出现偏差。要时刻铭记,如果你的模型对同一个人物周而复始地做出的错误的判断,那么你的模型将要面临终结,,同时,这也在向你预示着你的模型需要更新。

如果你采用上文提到的每一点建议的话,那么你的行为评分模型会为你的各种商业需求带来机器有价值的帮助。你可以知道人们在什么时间做出什么事情是预测成功的关键所在。

SAS文本挖掘器让分析剧透

有这样两个分析学大咖,他们对美国作家乔治·R·R·马丁的奇幻小说《冰与火之歌》系列(HBO的电视剧‘权力的游戏’改编自该小说)异常热衷,而对于新一季的剧情发展更是好奇心爆棚,为了揭开心中谜团,他们毅然决定用自己的拿手绝活来窥测剧情走向。

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

一个关乎“权利”的文本分析就此诞生。他们的创造者就是上面所提到的狂热大咖Gross和Naraharirao,两人都在LSU攻读分析学硕士学位。

而这篇对“权利”的分析,成为了路易斯安那州立大学2015年SCSUG教育论坛的学生研讨会上最具创意的亮点之一。

利用SAS文本聚类和因子分析技术解析剧本特征,基于常用词来计算角色人数,基于角色间的互动来分析彼此关系。数据技术将“权利”庞大的故事网络展现出来,听起来似乎很复杂,不过利用SAS文本聚类和因子分析技术解析剧本特征,让一切变得简单。

在分析中他们用到了SAS文本挖掘器的一系列功能节点,包括文本导入、文本解析、文本过滤、文本特征、文本聚类、文本主题(用于模式发现)。

他们还用到了SAS企业级数据挖掘器的一系列功能节点,包括数据过滤、数据分区、元数据、回归、数据保存等,用于数据处理和预测建模。

“借助SAS企业级数据挖掘器简单直观地操作,呈现如此庞大的故事脉络竟然如此之快。”–Naraharirao

“你可能觉得你已经很熟悉这个故事了,但是文本分析总能给你带来新的惊喜”Gross说道。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

快消品图像识别丨无人店背后的商品识别技术

人工智能一浪接一浪地席卷全球,AI的其中一个重要分支——计算机视觉,也如雨后春笋,不断涌现出新的想法和应用。人脸识别已经逐渐渗透我们的日常生活,机器能够认准人脸...

3237
来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

2369
来自专栏CDA数据分析师

CDA三级数据科学家精英计划究竟讲些什么内容?

在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身数据科学领域。

794
来自专栏AI研习社

为什么现在人工智能掀起热潮?

20世纪50年代,John McCarthy开创了Artificial Intelligence(简称AI)这个词,一下子就和Marvin Minsky一起,成...

863
来自专栏量子位

分享实录 | 第四范式程晓澄:机器学习在推荐系统中的应用

主讲人:程晓澄 | 第四范式资深算法科学家 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 9月20日晚,量子位邀请到第四范式资深算法科学家程晓澄,他以...

3345
来自专栏PPV课数据科学社区

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

4039
来自专栏灯塔大数据

一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

4018
来自专栏AI研习社

加入 Kaggle 大数据竞赛,总共分几步?

日前,谷歌在 Google Cloud Next 云计算大会上宣布收购知名大数据竞赛平台 Kaggle。消息一出,震动了数据科学、AI、机器学习三界(详见文章:...

3056
来自专栏灯塔大数据

预测分析|机器学习是如何预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具...

3505
来自专栏新智元

【春节最强AI游记】最全一手讲者报告实录+BATJ等企业展位,360度带你重温AAAI

新智元专栏 作者:张祥文 编辑:小奇 【新智元导读】厦大学子以一篇图文并茂的游记,带你重温今年的AAAI:详细介绍数场重磅讲者报告、亚马逊及阿里巴巴等提...

3488

扫码关注云+社区