【沙龙干货】主题四:美团外卖中的单量预估及列表优化

分享内容


相对于团购,外卖有三个特点:移动化、本地化、场景化。

移动化,从2011年开始到2015年移动战略是逐渐上升的。对应外卖2014年移动占比一下子占到75%以上,是更加移动化的一个产品。背后的一个原因是跟用户的使用场景有关系,比如我们进行定餐的时候,配送员会给我们打电话,天然的跟我们手机绑定在一起。

第二个就是本地化。在外卖里面目前最大的品类是美食,这个美食里面一公里以内它的一个战位基本上达到了65%左右。这个是非常强的限制,会对技术选型产生非常大的影响。

最后一个特点也是一个非常场景化的一个东西。外卖在一天里面订单随着时间的变化,有明显的两个波峰,对应背后的意义:一个是午餐的场景,一个是晚餐的场景。

从城市纬度去看订单量的预估,这个里面第一个出发点是什么?每个城市都会有波动,这个波动到底是否是正常的,这个时候我们需要进行人工,每天有一百多个城市都需要确认,这个工作量非常大。影响这个订单量背后的因素非常多,人工的方法很难确认到底这个波动由哪个因素造成的。即使找到了这个因素,这个因素带来的订单量增长的一个具体的数量,人工不太好确定的,这是是人工做的时候遇到的一些问题。

通过模型需要解决的问题:首先需要做自动的监控、报警;第二模型需要发现其中造成异常,这个异常的原因是什么;确定这个原因之后,那我们需要知道这个原因对我们订单量到底是什么样一个影响,是一个量化的事情。

首先我们会利用历史订单建立一个自回归模型;第二步,会利用真实值/第一步预测值作为label,建立“倍数”模型。如果第二模型出来是一个1.2的值,我比第一步预测的基础之上我再涨20%。这样建模有两个优点:1,利用boosting的思想,精度得到进一步提升;2,借助于第二步的模型,做到较好的可解释性。

第二点我们来看列表的优化。

这个图是整个列表的一个架构,可以分为三个方面: 第一部分就是日志,这个数据分析、策略的源头;第二部分是我们离线处理,包括我们策略的分析、模型训练;第三部分为在线服务,前端打请求到API,API再请求对应的在线服务,这个有一些具体的模块:abtest测试框架,触发、排序框架,此外还有一些在线的实时的数据处理。

这模型训练过程中遇到的一个问题是如何选择负样本,正样本是用户显式的反馈。在很多场景都会遇到这个问题,没有负样本怎么办?会做负样本的选取。有几种方法:1,随机选取;2,选取用户没有行为的热门商品;3,从行为较多的用户的候选集合中选。负样本选取本质上是在猜可能看了什么但没发生行为,所以猜的越准,效果越好。在外卖列表场景下,我试了Skip-above的效果还不错。

这是特征体系,传统做特征体系有三个方面,第一个是场景,第二个是用户,第三个是商品,两两相交,三者相交,有七个象限。在外面应用中,场景的特征不是太强,主要特征有三类就够了,一类是商家,第二个是用户,第三个是两者相交的部分,每个类型列举了一些例子。

树模型擅长处理稠密、枚举类型特征,这个是为什么在美团树模型比较流行的部分原因,因为纯在很多像评分、距离这样的连续类型特征,这个是线性模型不太擅长处理的。

我们做实时性,通常有几种方案,一个方案,非统计类型的特征,直接做模型驱动,达到实时性;第二个方案是,特征都是统计类型的特征,多次训练模型差别不大,这个时候的实时性,通过实时更新特征达到的,例如商家活动力度可能实时变化;第三,就是两者的结合。

还有一个在这个里面比较头疼的地方,外卖跟传统的互联网有一些不一样的地方,会有一些非常强大的配送。配送会涉及到一些交互,例如商家配送时间变长了,这个时候我们反映在排序结果上。

此外,还有遇到一个新商家、新用户的问题,这是比较难做的地方。

几种可行的方案,第一个固定位置,定义好新商家规则,在这个位置上只出新商家,你符合规则在固定位置展示。这个方法优点是:简单,用户好理解,运营好操作,技术好实施。这个方法也会有一些问题,比如新商家的周期为一周,第一天展示的商家和第七天展示的商家,可以拿到信息的量是不一样的,可以区分对待,E&E是一个可以解决的方法;第三种解决方法,平台提供一个流量入口,你只要付出成本就可以获得流量,例如广告是一个比较合适的方案。

原文发布于微信公众号 - 美团点评技术团队(meituantech)

原文发表时间:2016-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

微软研究院开源项目TextWorld:可用于强化学习训练的文本游戏

【导读】可以说,对话系统和自然语言处理(NLP)是现代人工智能(AI)中应用最广泛的部分。 尽管NLP研究不断取得进展,但和人相比,今天的大多数对话系统仍然相当...

591
来自专栏AI科技大本营的专栏

回顾2016深度学习十大框架

我喜欢参加在西班牙马德里举办的机器学习见面会,也算是西班牙马德里TensorFlow小组和机器学习(Machine Learning)小组的常客,在自动无人驾驶...

38111
来自专栏AI科技评论

动态 | DeepMind 开源TRFL,又一个强化学习复现、创新好帮手

AI 科技评论按:继今年 8 月谷歌开源发布了专为学术研究人员设计的简单但鲁棒的强化学习框架「多巴胺」(Dopamine)之后,早已被谷歌母公司收购但保持独立运...

883
来自专栏机器之心

ISWC 2018概览:知识图谱与机器学习

上周我参加了在加利福尼亚州蒙特雷举办的国际语义网络、会议(ISWC),并在 Ada Lovelace 纪念日当天就爱思唯尔(Elsevier)在衡量和解决研究领...

1325
来自专栏王晔的专栏

小流量 AB 测试能做吗?能!

AB测试对于产品和运营优化的重要性有目共睹。为了能更快的得到试验结果,试验流量越大越好。但是当流量不够的时候怎么办呢?小流量AB测试能不能做?能!那么,怎么做?...

2590
来自专栏人工智能

DeepMind的小窍门,究竟如何给AI提的速?

人工智能里一直以人类为学习榜样。而在面部识别、电子游戏、甚至围棋等领域,深度学习都已经超越了人类,以至于造成人类已经失败了的感觉。

20810
来自专栏AI科技评论

论文 | 谷歌OpenAI联合发布AI安全五大准则,预防AI暴走(下)

今天我们带来了谷歌安全五大定律的下篇,经过详细的论证,谷歌给出了一个可执行的AI的安全问题设计框架。让对于AI的限制的问题不再仅限于假设和推测,对今后深度学习系...

2844
来自专栏大数据文摘

OpenAI联手DeepMind发布增强学习新突破,最佳奖励函数可智能化生成(附论文)

1283
来自专栏AI研习社

博客 | 「压缩」会是机器学习的下一个杀手级应用吗?

雷锋网AI 科技评论按:机器学习的研究正进行的如火如荼,各种新方法层出不穷。尽管这样,还有一个问题摆在面前,研究这些算法对于现实有什么用。特别是当讨论起机器学习...

814
来自专栏腾讯架构师的专栏

给 AI 换个“大动力小心脏”之通用 CNN 加速设计

基于 FPGA 的通用 CNN 加速设计,可以大大缩短 FPGA 开发周期,支持业务深度学习算法快速迭代;提供与GPU相媲美的计算性能,但拥有相较于 GPU 数...

1.6K2

扫码关注云+社区