基于客户行为事件的跨领域统一推荐模型探讨

感谢作者袁峻峰的投稿,本文版权属于袁峻峰,只代表个人观点。如需转载请联系作者(微信号 jake-80 )。大数据 公众号投稿邮箱:holly0801@163.com。

跨领域深度学习模型一直是近几年推荐系统主要研究方向之一, 本文探讨一种个人客户画像构建的新思路, 并讨论对应的基于个人行为事件的跨领域统一推荐模型。

1

基于个人客户画像推荐

为方便读者理解,摘抄部分前文[2]内容。目前业界的个人画像主要在机构内部数据结合外部数据基础上构建。如对原始数据进行特征提取,得到如下客户特征:

图一 (来源[2])

在实施过程中可以为个人客户画像中每个人打上几千个各类标签。再结合具体的推荐场景如股票购买概率预测模型[3]中特征要求,应用于具体推荐模型中。实践中一般还使用特征选择模型来决定哪些特征适用具体场景。并且由于很多关键属性缺失,还需要一些数据挖掘模型用于特征推断,比方逻辑回归,决策树,标签传递等。

2

特征体系能完全标记人的行为吗?

什么是特征,“那个被选作确切的同一性和差异性之场所的结构,就是被称作特性。” [1]特征是为了差异更是为了相似性,福柯认为相似性与特征(符号)是必然联系,因为相似性是建立在对这些特征(符号)的记录和辨认上。而且他一直强调相似性的重要:“直到16世纪末,相似性在西方文化知识中一直起着创建者的作用。”[1]“产生于特殊事件的一般归纳,或者不如说科学的种类、逻辑和所有抽象观念,都是借助相似性而形成。”[1]同样,相似性在模式识别、分类、监督学习、非监督学习等机器学习概念中的有着同样的重要性。

进一步而言,特征体系是系统研究相似性,标识个体与分类的合理的、必然的途径。福柯对体系的定义是“选择一组确定的和相对有限的特征,其恒定和变换能在任何自身呈现的个体中得到研究” [1],他在认可这一途径的同时也指出该方法的不足。书中举了个例子:“中国某部百科全书中动物可以划分为:1属皇帝所有,2有芬芳的香味,3驯顺的,4乳猪,5鳗螈,6传说中的,7自由走动的狗。。。”他在惊叹如此分类的想象力的同时也指出“体系在展开过程中是任意的” [1],“有可能把方法凭经验而限定的从外部强加的修正应用于一般特性:被人们认为对一个种群来说重要的一个特征,很可能只是另一些动物的特殊性” [1]。让我们回顾上一部分中客户特征分类以及特征,似乎还比较合乎常理,但似乎也有些随意。前文[2]也试图从行为金融学相关观点应用于个人金融画像特征提取,但不足以根本解决这个问题。

福柯大师也意识到“特征的确立,既是容易的,又是困难的。” [1],“为了确立起所有的同一与差异,将有必要考虑在一个描述中可能被提及的每一个特征。这是一毫无止境的任务。” [1]而且他还意识到特征“都是在相互联系,相互混合并且或许能相互转换” [1]。现在,我们非常容易理解这些特征之间的这种关系。认为基因和特征存在映射关系的话,在遗传算法中,会通过一系列的遗传算子来确认后代,包括交叉算子、变异算子这些都可以导致基因相互联系与转换,从而导致特征同样变化。

而且人的行为更是动态的,情景的,那可想而知构建合理的特征体系作为客户画像的难度。那我们是不是可以试试其他途径呢?

3

基于个人行为事件的客户画像

“每个插曲,每一个决心,每一种不合时宜的行动,都象征着唐吉坷德”[1]

如果塞万提斯不是用那么一部伟大的长篇巨著描写唐吉坷德的总总境遇,而是用一堆特征来标记。哪怕他是塞万提斯,哪怕他用8888个特征标记唐吉坷德,难道我们能比现在更感受到那样的一个唐吉坷德吗?如果要狗尾续貂一部《唐吉坷德游中国》,难道不是原著中那些事件的描述比8888个特征更能预测唐吉坷德游骑士在中国游中的种种行为吗?

接下来让我们试着忘记特征体系,是否可以尝试只通过那些在时间轴上,在特定场景下的总总事件来构建客户画像呢?

假设已合法的收集个人行为数据。一行样本数据包括,客户编号,事件类型,该类事件环境,事件行为的描述(当然还是可能需要用特征标识)等。那么我们将得到如下数据。

4

跨领域统一推荐模型

接下来,探讨基于个人行为事件的客户画像构建跨领域统一推荐模型。我们假设这些事件是独立,正样本是历史上不同客户在各领域已发生事件。通过深度学习,得到在转换函数用于预测在新的场景下,不同客户发生指定事件的概率。

该框架不同于以往跨领域深度学习模型中样本数据,不再基于客户特征画像体系,而是用事件轴上的系列事件标记客户,并用于深度学习预测当前事件发生概率。

5

总结

本文以福柯《词与物》[1]中立场讨论了个人客户画像特征体系构建中的问题,充分认识到构建完善客户画像体系的复杂性。并从书中得到启发,探讨不再基于特征体系客户画像,而是用事件轴上的系列事件标记客户,并通过跨领域统一推荐深度学习模型预测事件发生概率。

参考文献

[1] 米歇尔•福柯, 莫伟民 译.词与物 [M].上海三联书店. 2002.、

[2] 袁峻峰. 人格量化-个人金融画像探索[OL]. 蚂蚁金服评论. 2016-03-07.

[3] 袁峻峰. 大数据下客户金融产品购买概率预测[OL]. 大数据文摘,量化派 等(公众号). 2016-02-19.

作者简介

袁峻峰,花名观妙,蚂蚁金服人工智能部,复旦金融学硕士,FRM金融风险管理师。10年以上从事金融IT相关领域工作经验:国内银行间市场金融产品(包括衍生产品)的量化分析、市场风险管理以及相关系统实现。目前从事并关注于金融领域机器学习相关主题与应用,欢迎探讨, 邮箱yuanjunfeng_fr@163.com。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-08-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

让冰冷的机器看懂这个多彩的世界

2999
来自专栏人工智能头条

干货 | 1400篇机器学习的文章中,这10篇是最棒的!

【导读】在过去的一个月中, 作者从近 1400 篇有关机器学习的文章中挑选了最有可能帮助职业生涯发展的 10 篇推荐给大家(入选比率为0.7%)。

1324
来自专栏机器之心

观点 | Judea Pearl:传统机器学习尚处于因果层级的底层,达成完备AI的7个工具

机器学习的巨大成功带来了 AI 应用的爆炸式增长以及对具备人类级别智能的自动化系统不断增长的期望。然而,这些期望在很多应用领域中都遇到了基本的障碍。其中一个障碍...

1281
来自专栏新智元

【重磅】AI 自动研发机器学习系统,DeepMind 让算法学习强化学习(附论文)

【新智元导读】眼下,人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包...

3738
来自专栏专知

【下载】面向机器智能的TensorFlow实践书籍和代码

【导读】自2015年11月TensorFlow第一个开源版本发布以来,它便迅速跻身于最激动人心的机器学习库的行列,并在科研、产品和教育等领域正在得到日益广泛的应...

4308
来自专栏数据的力量

干货 | 从定义到应用,数据挖掘的一次权威定义之旅

1544
来自专栏AI研习社

博客 | 重温五条 AI 基础规律

雷锋网AI 科技评论按:如果每个人都有足够的时间和热诚,并乐意去大学拿个 AI 学位,那你大概就不会读到这篇博客了。 虽说 AI 的工作方式挺神秘的,但在处理技...

861
来自专栏玉树芝兰

文科生用机器学习做论文,该写些什么?

从“价值、必要、讨论和工具”这四个角度,把一些容易踩的坑提示给你,助你顺利完成研究论文撰写。

1032
来自专栏数据派THU

独家 | 如何改善你的训练数据集?(附案例)

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分,我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集...

1024
来自专栏崔庆才的专栏

DensePose 开源了!利用它可轻松实现实时3D人体姿势识别!

大家可能还记得,今年2月Facebook发布的,人体姿势实时识别系统DensePose。

2460

扫码关注云+社区

领取腾讯云代金券