教你如何用机器学习预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将具备这种功能的机器学习算法用到热播美剧《权利的游戏》当中,我们需要这种算法具备更加细致的模型才能分辨出剧中的人物到底是“善”还是“恶”。但是如果一个人的“善”与“恶”的本性与生俱来,那该怎么办?如果他们的本性会随着岁月发生变化又该怎么办呢?如果你一时还无法预测他们是否会背叛你,但是却可以知道他们会在何时背叛你,你觉得这样的算法会不会很棒呢?

使用预测模型进行市场营销

在我们的团队为市场营销开发的预测模型当中,最为关键的挑战就是需要在某一个特定时间段进行预测。我们正在试图需找藏在这些数据背后的决定消费者何时会有购买意愿的精准时间点。我们从Airbnb那里得到了启发,我们为《权力的游戏》中虚构的人物形象开发了一个机器学习模型,并在其中添加了可以反映现实世界中销售难度的系数,这样就可以掌握消费者有购物需求的精准时间并做出及时的反应。如果假设一位潜在的买家实际上是来自维斯特洛的居民,然后你把“善”与“恶”的界限弄得含混不清,那么你不得不深思熟虑——每个人都有可能成为在任何时间潜伏在你周围的叛徒(你也可以理解为购买你的产品)。

因此,你怎样才能预测出他们什么时候才能叛变(或者采购)呢?我们的第一个挑战就是把我们培训所需数据——不同性格特征的人物所具有的各种行为活动列表,转变成可以被模型进行处理的人物性格特征数据。随后,我们用这些可以代表他们的个人性格特征的活动数据对他们进行预测。

行为评分方法

有一种方法可以用来计算和人物有关的行为数量,这种方式可以用来训练我们的预测模型(这种方法和营销自动化系统评分线索有些类似)。但不幸的是,这种方式还是无法帮助我们辨别活动是发生在过去还是发生在现在。如果想要预测发生在不久的将来的活动,这种分辨能力显得尤为关键。

从另一个角度而言,我们可能仅仅是关注那些刚发生不久的活动。这确实可以帮助我们不断保持数据的更新,并且可以解决那些古老的数据给评估带来的负面影响。但是如果一个人物在近期没有发生任何举动的话,我们该怎么办呢?我们仍然会通过他之前发生的行为对他进行评估。而且我们仍将会保留他最近的一些历史活动数据,因为发生在过去的某些貌似一次性的行为活动会转变成一种显著的模式(pattern),并对未来的决策制定产生影响。

我们可以从混合方法中获得好处。比如我们可以将这个模型中的人物发生在过去的活动与发生在近期的活动相结合。除此之外我们可以使用一系列不同的界面窗口对刚发生不久的活动进行有区别的处理。用这种方式可以让我们记住三周以前发生的行为,但是我们可以用不同的标准来衡量发生在昨天的行为。

追踪移动中的行为目标

请一定要记住,隐藏在人物背后的情感状态会随着时间发生改变。通过下面这张反映性格历史变化的图表,来看看人物性格特征背后隐藏的情感是如何影响我们的预测目标的:

你会发现在八月份的时候,根据他最近的行为模式,我们的模型认为他会在在这个期间叛变(购买产品)。尽管此事在我们的意料之中,但是他的忠诚度依然保持了数月之久。当然,他的背叛行为的确在潜移默化当中发生。既然人们的内心情感状态(他是否准备做出背叛行为)会随着时间发生改变,那么我们的模型也需要知道是否某些人将会发生背叛行为,这样的话我们就可以知道准确的反击时间。

模型评价思考:在一个时间序列内的评分与再评分

为了了解我们的模型是否能够准确的反映出人物的动机,每一个人物都应该被附加上可供参考的评分——我们需要评估他们到底有多高的信任度,并且这种供参考的评分要随着时间不断进行调整。但这样做会让我们的评价系统变得非常复杂,因为我们对于一个人物的“善”或者“恶”的看法会时过境迁,就像这些人物自己的行为动机也会不断发生改变一样。

当评分恢复水平状态之前,停留在峰值状态的时候,另一个问题将会浮出水面。误导性的预言的铺展可能会让我们对一些忠诚度极高的人物产生暂时的怀疑态度,因此我们要确保模型的评价功能一定要以整个时期的所有分数为着眼点。当我们对模型再次进行培训的时候,我们一定要对这些错误的评分进行惩处,并通过比较来发现哪一种模型相对更好。

为了评价一个模型的性能是否优良,我们仅仅需要考虑我们每次(每天或者每周)评价一个人物时所得出的分数,并观测这个模型在下一周将如何很好的推测出他们的行为。如果在某一周开始的时候,我们断言一个人物极有可能叛变,并且他正好在这一周的周四背叛了我们,那么这足以证明我们的模型运行良好,模型给出了积极正确的建议。但是如果这个人物仍旧没有在预测的那一周叛变,却直到下周的周四才发生背叛行为,那么我们的模型给出的建议就是错误的。在这种案例下,我们不得不考虑在下一周如何对这个人物进行评分。

结论:我们从这个启发当中有何收获?

从这个虚拟的案例当中,我们可以看到,如果想建立一个准确的行为评估模型,需要很多充分的思考和经验,并且需要借助正确的衡量方式才能决定出评分的准确性。当机器学习的时间跨度很长时,模型的监测工作就会变得尤为重要,并且要留心他可能会出现偏差。要时刻铭记,如果你的模型对同一个人物周而复始地做出的错误的判断,那么你的模型将要面临终结,,同时,这也在向你预示着你的模型需要更新。

如果你采用上文提到的每一点建议的话,那么你的行为评分模型会为你的各种商业需求带来机器有价值的帮助。你可以知道人们在什么时间做出什么事情是预测成功的关键所在。

SAS文本挖掘器让分析剧透

有这样两个分析学大咖,他们对美国作家乔治·R·R·马丁的奇幻小说《冰与火之歌》系列(HBO的电视剧‘权力的游戏’改编自该小说)异常热衷,而对于新一季的剧情发展更是好奇心爆棚,为了揭开心中谜团,他们毅然决定用自己的拿手绝活来窥测剧情走向。

基于贝叶斯生存分析的《冰与火之歌》人物死亡率分析

一个关乎“权利”的文本分析就此诞生。他们的创造者就是上面所提到的狂热大咖Gross和Naraharirao,两人都在LSU攻读分析学硕士学位。

而这篇对“权利”的分析,成为了路易斯安那州立大学2015年SCSUG教育论坛的学生研讨会上最具创意的亮点之一。

利用SAS文本聚类和因子分析技术解析剧本特征,基于常用词来计算角色人数,基于角色间的互动来分析彼此关系。数据技术将“权利”庞大的故事网络展现出来,听起来似乎很复杂,不过利用SAS文本聚类和因子分析技术解析剧本特征,让一切变得简单。

在分析中他们用到了SAS文本挖掘器的一系列功能节点,包括文本导入、文本解析、文本过滤、文本特征、文本聚类、文本主题(用于模式发现)。

他们还用到了SAS企业级数据挖掘器的一系列功能节点,包括数据过滤、数据分区、元数据、回归、数据保存等,用于数据处理和预测建模。

“借助SAS企业级数据挖掘器简单直观地操作,呈现如此庞大的故事脉络竟然如此之快。”–Naraharirao

“你可能觉得你已经很熟悉这个故事了,但是文本分析总能给你带来新的惊喜”Gross说道。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏养码场

吆喝科技CTO的纯干货分享:直击A/BTesting和美团推荐技术关键点!

养码场的线上课程,以技术人员为核心的学习、交流、分享社群,全方位服务技术人和技术创业者。这里聚集了众多BAT/美团/京东/滴滴/360/小米/网易等知名互联网公...

794
来自专栏量子位

中国团队再次称雄AI大赛,微软谷歌FB都甩在身后

李林 假装发自 威尼斯 量子位 出品 | 公众号 QbitAI 又一次!中国团队拿下一项AI赛事的多个大奖! 8天的计算机视觉顶会ICCV 2017在威尼斯悄然...

2914
来自专栏大数据文摘

AI测谎仪:通过微表情在法庭检测谎言,性能已优于人类

1012
来自专栏量子位

谷歌大脑QT-Opt算法,机器人探囊取物成功率96%,Jeff Dean大赞

793
来自专栏罗超频道

【开脑洞】未来,机器是否会取代人工翻译?

科技博客用翻译软件来翻译硅谷资讯,大学生使用翻译软件阅读英语论文,海外旅行者已把翻译App作为手机必备应用,看样子机器翻译就要取代译员,如同机器在问答、导航、收...

2836
来自专栏量子位

人工智能技术入门该读哪些书?StackOverflow上最推荐这些

王小新 编译整理 量子位 出品 | 公众号 QbitAI 学习人工智能相关技术该读什么书?这是量子位各个微信群中出现频率极高的问题。 今天,我们就从Dev-bo...

3394
来自专栏AI研习社

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

38111
来自专栏PPV课数据科学社区

【书单】统计学经典教材书单

一、统计学基础部分 1、《统计学》David Freedman等著,魏宗舒,施锡铨等译,中国统计出版社。 据说是统...

2565
来自专栏量子位

Google大脑工程师详解:深度学习技术能带来哪些新产品?

量子位 | 李林 整理编译 提到深度学习,你可能会想到认猫、认脸,或者下围棋、翻译……其实,这项技术还能用在很多你意想不到的地方。 那么,“深度学习的最新进展能...

3197
来自专栏大数据文摘

VR如何巧妙填补传统数据视觉化的漏洞

1584

扫描关注云+社区