从算法到应用,新零售背后的推荐系统

内容来源:2018 年 05 月 26 日,袋鼠云高级算法专家尼奥在“AICAMP人工智能沙龙(杭州)”进行《新零售推荐系统:从算法到应用》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。

阅读字数:2502 | 7分钟阅读

摘要

本次主题主要介绍推荐系统在新零售行业中的应用。

获取嘉宾演讲视频及PPT,扫一扫下方二维码即可。

推荐系统概述

讨论信息价值的时候,我们讨论的不光是量和传播速度,还有信息共享的范围,这一点其实和推荐系统中协同过滤有着密切关系,即通过共享其他人或者物品的信息进行推荐,共享的范围对信息价值所产生的影响最大。

推荐系统

推荐系统其实就是给用户推荐物品或者预测喜好,当然还包括其他各方面的东西。上图展示了各种推荐的场景,主要由用户和产品两部分组成,这种图模型也是推荐系统的一种解决方案,比如图中两个物品的相识度就可以使用图计算的方法进行量化的解释。

国内在推荐系统方面主要想做的是千人千面,通过千人千面来实现增加点击,发掘长尾的目标。

目前推荐系统常见的使用场景有电商、社交、影音、资讯这四个平台。

常见的推荐算法有基于内容、系统过滤、关联规则、基于效用以及基于知识这几个。其中最主要的还是协同过滤,它又被分为两类,一类是基于用户,主要在资讯平台,一类是居于物品,这类很明显是电商平台。基于用户的算法计算的是用户相似度,需要维护用户信息矩阵,更社会化,而基于物品的算法计算的是物品相似度,需要维护物品信息举证,更个性化。

上图是协同过滤的评分预测算法,ALS中评分由两个向量的乘积决定,SVD++认为评分不光是有两个向量乘积决定,个体差异同样也会产生影响。

推荐需要的数据一般分为三块,用户、物品、时间。时间用来关联用户和物品,用户数据主要是人口统计学数据、用户行为数据、用户标签,物品数据则是物品基本属性、物品标签、物品效用。

对于推荐结果的检验分为准确率、召回率、覆盖率、多样性、新颖度/流行度。

上图展示的为机器学习算法的5个流派,其中联结主义可能是大家最熟悉的,所有的神经网络的算法都属于这一类。最后的行为类推其实就是推荐算法。随着后续的发展这几个流派肯定会被结合起来。

新零售中的推荐

推荐系统中除了技术,还需要有很大程度的业务支持。作为一个数据科学家不光要有数据和计算机基础,还要专业知识,也就是对业务的理解。在新零售行业很多时候都是以业务为主导。

新零售是2016年提出的概念,简单来说就是线上加线下加物流,比较典型的有盒马生鲜、小米体验店、微信群营销等。从推荐的角度上来看,微信群营销其实也算作新零售。微信群虽然可以获取到很多数据,但是和体验店一样客户无法确认。并且每个微信群都有针对人群,可以没有办法拿到除了头像和姓名之外的信息,用户身份也无法获得认证,人员流动非常频繁。这些特性与实体店非常相似,即使我们无法从单个用户的角度来进行推荐。

与互联网推荐的区别

新零售推荐与互联网推荐最大的差异在于一个线上一个线下,我们在做图书项目的时候发现,用户在线上买书的行为喜好与线下很不一样。线上的卖书的店铺经常会有一些满减促销,它的折扣力度是很吸引人的,但是在线下很少有超过5折的活动。

在互联网上由于可以实施用户行为采集,所以可以实现千人千面,但是在线下只能通过门店的角度来进行推荐,无法具体到单独的个体上。因此新零售所能实现的是千店千面,目标也转为了增加销量和信息共享,其实也就是信息扩缩的过程。

上图是我们项目中的图书推荐界面,也是门店所使用的后台。可以看到这里包含了很多信息,比如书名、作者、出版日期、销量等,每一列信息中都有很多的业务背景需要了解。比如对于出版超过3年的书市场效果其实已经很容易看出来了,并不需要我们再去做推荐。

之后我们对该项目进行了总结。首先是可用信息少,只能获取到行为信息以及物品信息。其次是需求不同,必须要以门店为主,也就是基于用户的协同过滤体系。而且图书行业每年新出版的书可能有几十万,但真正有销量的一半都不到,所以存在很多空值数据,没有办法做基于物品的协同过滤。最后是反馈周期长,对于图书这样的线下销售虽然每天都能拿得数据,但是反馈至少是以周为单位,因此对结果检验会产生影响。

推荐算法的应用

当算法上线的时候,一切才刚刚开始,之后还会出现各种问题,接下来我们来看一些典型的场景。首先是强特征,有时会出现业务人员在与技术对接的后发现一些很重要的特征在库中不存在。其次特征不仅会增加还会消失,比如对于我们来说,客户的产品信息有时会进行改版,数据库信息也会随之改变,而我们在不知情的情况下获取的信息就可能会不存在,这主要是因为客户觉得这类信息不重要,而将它去除了。

这张图是算法的数据处理流程。原始数据导入后会进行数据清洗,之后通过不同的算法模型或者业务规则生成模型和结果集,最后输出结果集,再使用不同的过滤规则得到结果。

上面的流程适用于离线或者无需实时更新的场景,而如果需要实时则要在图中的推荐流程中添加召回模块。打造实时推荐不意味着实时计算,因为数据量实在过于庞大,而是先对提前算好的结果进行筛选,再由一个特殊的模块根据用户的实时行为做出推荐。一般来说计算时间要小于0.1秒。

最后给大家分享一些我们在新零售推荐应用上的一些想法:

  • 业务效果好的算法并不一定是复杂的算法;
  • 做项目要比光看书的收获大得多;
  • 推荐是个系统工程,算法很重要,但不是全部。

以上为今天的分享内容,谢谢大家!

本文分享自微信公众号 - IT大咖说(itdakashuo)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

我们的挚爱——数据科学技术

数据科学家最爱的几款工具! 一个能干的数据科学家经常被看作是分析学中额的独角兽,这是因为他们的工作往往需要深厚的数学和统计学的知识、熟悉计算机科学,还要有掌握一...

36460
来自专栏新智元

Facebook对话AI发展出人类无法理解语言,肇因两个智能体参数跑偏

【新智元导读】在名为 Dealor No Deal? End-to-End Learning for Negotiation Dialogues 的论文中,Fa...

45990
来自专栏AI科技大本营的专栏

机器学习到底能创造什么价值?我们精选了9位从业者的答案

来源 | HackerNews 编译 | 晓查 不温不火的机器学习忽然蹿红业界,也就是这两三年的事,于是不仅传统行业,连风光一时的互联网公司也开始疑惑:我们要不...

293110
来自专栏人工智能头条

搜索,大促场景下智能化演进之路

26040
来自专栏新智元

谷歌使用众包和机器学习攻克“停车难”,Google Earth 开源

【新智元导读】 “停车难”问题困扰车主的一个大问题。最近,谷歌研究员们开始使用机器学习的方法来攻克这一难题。 开车的时候,有大部分的时间要么是花费在堵车上,要...

39070
来自专栏机器之心

观点 | 低门槛究竟是深度学习的危机,还是契机?

选自reddit 机器之心编译 参与:黄小天、刘晓坤 近日,Reddit 上出现了一个颇有争议性的问题,提问者怀疑深度学习的低门槛会破坏这个领域的声誉,业余者的...

31970

企业的AI层和物联网

根据德勤去年的预测,截至2016年底,按收入划分全球100家最大的企业软件公司中有80多家将认知技术融入其产品中。“Gartner还预测,新投资的40%企业将在...

365100
来自专栏BestSDK

战胜李世石的AlphaGo又出新大招:用神经网络看病

很有意思的是,从当前DeepMind所做的事情里我们其实可以抽取出一些更有价值的模式,比如什么是人工智能+,到底应该怎么加。 案例1:降低能源消耗 DeepMi...

26350
来自专栏互联网数据官iCDO

运营研究的3个方法:过程法、要素法、分类法

作者:平章大人 全文共 2582 字 7 图,阅读需要 7 分钟 ———— / BEGIN / ———— 研究了这么久的营销和运营,我越发深刻地认可一句话:“上...

33070
来自专栏新智元

谷歌 TPU 的强大与局限:TPU/GPU/CPU性能功耗全面对比

【新智元导读】谷歌公布 TPU 论文(被ISCA-17 接收)引发新一轮讨论,连英伟达CEO黄仁勋都亲自撰文回应。使用 TPU 代表了谷歌为其人工智能服务设计专...

96390

扫码关注云+社区

领取腾讯云代金券