【沙龙干货】主题四:美团外卖中的单量预估及列表优化

分享内容


相对于团购,外卖有三个特点:移动化、本地化、场景化。

移动化,从2011年开始到2015年移动战略是逐渐上升的。对应外卖2014年移动占比一下子占到75%以上,是更加移动化的一个产品。背后的一个原因是跟用户的使用场景有关系,比如我们进行定餐的时候,配送员会给我们打电话,天然的跟我们手机绑定在一起。

第二个就是本地化。在外卖里面目前最大的品类是美食,这个美食里面一公里以内它的一个战位基本上达到了65%左右。这个是非常强的限制,会对技术选型产生非常大的影响。

最后一个特点也是一个非常场景化的一个东西。外卖在一天里面订单随着时间的变化,有明显的两个波峰,对应背后的意义:一个是午餐的场景,一个是晚餐的场景。

从城市纬度去看订单量的预估,这个里面第一个出发点是什么?每个城市都会有波动,这个波动到底是否是正常的,这个时候我们需要进行人工,每天有一百多个城市都需要确认,这个工作量非常大。影响这个订单量背后的因素非常多,人工的方法很难确认到底这个波动由哪个因素造成的。即使找到了这个因素,这个因素带来的订单量增长的一个具体的数量,人工不太好确定的,这是是人工做的时候遇到的一些问题。

通过模型需要解决的问题:首先需要做自动的监控、报警;第二模型需要发现其中造成异常,这个异常的原因是什么;确定这个原因之后,那我们需要知道这个原因对我们订单量到底是什么样一个影响,是一个量化的事情。

首先我们会利用历史订单建立一个自回归模型;第二步,会利用真实值/第一步预测值作为label,建立“倍数”模型。如果第二模型出来是一个1.2的值,我比第一步预测的基础之上我再涨20%。这样建模有两个优点:1,利用boosting的思想,精度得到进一步提升;2,借助于第二步的模型,做到较好的可解释性。

第二点我们来看列表的优化。

这个图是整个列表的一个架构,可以分为三个方面: 第一部分就是日志,这个数据分析、策略的源头;第二部分是我们离线处理,包括我们策略的分析、模型训练;第三部分为在线服务,前端打请求到API,API再请求对应的在线服务,这个有一些具体的模块:abtest测试框架,触发、排序框架,此外还有一些在线的实时的数据处理。

这模型训练过程中遇到的一个问题是如何选择负样本,正样本是用户显式的反馈。在很多场景都会遇到这个问题,没有负样本怎么办?会做负样本的选取。有几种方法:1,随机选取;2,选取用户没有行为的热门商品;3,从行为较多的用户的候选集合中选。负样本选取本质上是在猜可能看了什么但没发生行为,所以猜的越准,效果越好。在外卖列表场景下,我试了Skip-above的效果还不错。

这是特征体系,传统做特征体系有三个方面,第一个是场景,第二个是用户,第三个是商品,两两相交,三者相交,有七个象限。在外面应用中,场景的特征不是太强,主要特征有三类就够了,一类是商家,第二个是用户,第三个是两者相交的部分,每个类型列举了一些例子。

树模型擅长处理稠密、枚举类型特征,这个是为什么在美团树模型比较流行的部分原因,因为纯在很多像评分、距离这样的连续类型特征,这个是线性模型不太擅长处理的。

我们做实时性,通常有几种方案,一个方案,非统计类型的特征,直接做模型驱动,达到实时性;第二个方案是,特征都是统计类型的特征,多次训练模型差别不大,这个时候的实时性,通过实时更新特征达到的,例如商家活动力度可能实时变化;第三,就是两者的结合。

还有一个在这个里面比较头疼的地方,外卖跟传统的互联网有一些不一样的地方,会有一些非常强大的配送。配送会涉及到一些交互,例如商家配送时间变长了,这个时候我们反映在排序结果上。

此外,还有遇到一个新商家、新用户的问题,这是比较难做的地方。

几种可行的方案,第一个固定位置,定义好新商家规则,在这个位置上只出新商家,你符合规则在固定位置展示。这个方法优点是:简单,用户好理解,运营好操作,技术好实施。这个方法也会有一些问题,比如新商家的周期为一周,第一天展示的商家和第七天展示的商家,可以拿到信息的量是不一样的,可以区分对待,E&E是一个可以解决的方法;第三种解决方法,平台提供一个流量入口,你只要付出成本就可以获得流量,例如广告是一个比较合适的方案。

原文发布于微信公众号 - 美团点评技术团队(meituantech)

原文发表时间:2016-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

数学不好,能学好编程嘛?

数学,相信上过学的人都学过。从小学到高中,大学的计算机专业都在学。有的人就问,虽然每天都在学习离散数学,高等代数,但是实际上都用不到,纯粹就是为了学分,为了毕业...

3346
来自专栏数据猿

【案例】中国人民银行——结合大数据和复杂网络技术实现企业关联关系计算及图谱展示

数据猿导读 随着大数据处理技术的逐步成熟和广泛应用,金融机构根据业务发展需要,开始尝试采用大数据和复杂网络技术来建立便捷性、直观性和快速反应的企业关联查询生产系...

3485
来自专栏新智元

【大脑新解】像计算机一样学习?

大多数神经科学家相信大脑通过对自身重新布线,即不断改变脑细胞或神经元之间的联接强度,进行学习。但是瑞典的德隆大学在去年发布的实验结果,暗示我们应该改变做法。他们...

27210
来自专栏AI科技评论

ACL2016最佳论文:通过交互学习语言游戏

摘要 我们介绍了一种与构建适应性的自然语言接口有关的新型语言学习设置。它受到维特根斯坦语言游戏(Wittgenstein’s language games)的启...

2664
来自专栏新智元

谷歌新目标——让计算机实现自我编程,自主机器时代不再遥远

【新智元导读】 许多人对AI的想象都停留在应用层,而忽视了技术层AI也将产生颠覆——让机器自己编程。谷歌大脑、DeepMind、Facebook甚至Viv 都在...

3286
来自专栏机器人网

程序猿也要失业了吗?微软AI 开发出自行编写代码的算法

据国外媒体Quartz报道,要是计算机能够理解人们想要解决的问题,并编写代码将其解决,而不像微软Excel那样要在程序内的菜单人工找寻合适的公式,会怎么样?这是...

3317
来自专栏CDA数据分析师

专栏 | 案例:电信用户分群精准画像的7个步骤

“每天一个数据”分析师新一期内容奉上,请享用~ 转载请注明来自CDA数据分析师 否则小编将举报到底! 本期我们有幸采访到的嘉宾名叫兰锦池,2012年硕士毕业,...

2159
来自专栏CSDN技术头条

Twitter开源云环境时间序列数据断层检测工具BreakoutDetection

【编者按】区别于传统环境,鉴于云环境中众多不可预测的因素和异常,其时间序列breakout检测并不容易。近日,Twitter开源了一款基于E-Divisive ...

2005
来自专栏美团技术团队

美团点评旅游搜索召回策略的演进

背景 美团点评作为最大的生活服务平台,有丰富的品类可供用户选择,因此搜索这个入口对各业务的重要性不言而喻,除了平台搜索外,业务搜索系统的质量和效果对用户体验、商...

45510
来自专栏机器之心

arXiv的优缺点如此明显,未来是否应该引入评论与同行评议?

选自Authorea 机器之心编译 参与:路雪、刘晓坤、李亚洲 arXiv 是当前最流行的预印本库。自 1991 年创办以来,arXiv 为研究者提供了一个在正...

44812

扫码关注云+社区