滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践

AI 科技评论按:7 月 29 日,YOCSEF TDS《深度强化学习的理论、算法与应用》专题探索报告会于中科院自动化所成功举办,本文为报告会第一场演讲,讲者为滴滴副总裁、AI Labs 负责人叶杰平教授,演讲题为「深度强化学习在滴滴的探索与实践」,AI 科技评论对本次演讲内容进行了重点整理。

据介绍,现在的滴滴平台每日路径规划请求 400 多亿次,每日新增 100+TB 的轨迹原始数据,每日处理数据量为 4875+TB。海量大数据也让滴滴能更积极地进行 AI 研究和布局。

据叶杰平教授介绍,滴滴的 AI 战略和布局主要围绕三个层面展开,最底层是基础的 AI 算法,比如强化学习算法、深度学习算法等;中间一层则是滴滴拥有的非常核心的 AI 技术,如语音、自然语言处理、图像等;而最上一层则是 AI 技术支持的应用—包括用技术创新提高出行平台的用户体验,以人工智能、大数据技术助力城市建设智慧交通网络,布局智能驾驶及新能源汽车等领域。

叶杰平教授还介绍了滴滴的智能决策中心滴滴大脑。首先,地图服务是交易引擎必不可少的一项基础服务,其中有两项重要的服务,一项是路径规划,另一项是 ETA(Estimated Time of Arrival)。比较理想的路径规划需要达到三个目标,一是最小化费用,二是最大化司机工作效率,三是优化交通系统效率。目前,Dijkstra 算法和 A star 算法是最常见的路径规划算法。为了更高效的提供服务,基于 Dijkstra 的改进算法 Contraction Hierarchies 也是目前业界的主流解决方法。ETA 服务可以应用于多项任务,比如估计到达时间,估计未来行驶时间,提供数字地图/导航的基础服务。滴滴自 2015 年自主研发了 ETA 的机器学习解决方案,经过了不断的更新迭代,目前主要使用深度神经网络的方法,并且设计了针对性的深度神经网络-宽深循环学习(Wide-Deep-Recurrent Learning),进一步提升了预估精度。相关算法实践也被写入《Learning to Estimate the Travel Time》论文,被国际数据挖掘领域顶级会议 KDD 2018 收录。

滴滴叶杰平教授还介绍了深度强化学习技术在滴滴智能派单中应用。由于派单的决定会影响未来的司机分布,且派单既要考虑司机收入还要保障用户体验,综合考虑这两个需求,叶杰平教授介绍了两种方法来解决派单问题,一种方法是 MDP(Markov Decision Process),另一种是深度强化学习。

首先是 MDP,MDP 在派单中的应用中分为两个部分,一是线上的计划过程,二是离线的学习过程,这两个过程结合了强化学习和组合优化。考虑到每一次匹配对未来是有影响的,这样可以能基于全天供需、出行行为预测,来考虑一天之内司机整体的效率。

离线学习——策略评估

线上计划——优势函数

最终的结果显示,这种基于强化学习和组合优化的派单算法能在确保乘客出行体验的同时明显提升司机的收入。相关模型实践论文也将在国际数据挖掘顶级会议 KDD 2018 中以 Oral 形式发表。

叶杰平教授介绍的第二种方法是深度强化学习,深度强化学习在应用中具有如下几个优点,一是对于实时供需变换具有良好的适应性,二是可以学习不同城市和时间段的数据,三是由于输入(上车地点,时间,目的地,内容)权重共享,所有泛化能力强。具体使用的深度强化学习模型是带有行动搜索的 DQN(Deep Q-network)模型。训练过程如下所示。

最后叶杰平教授比较了 DQN 和策略评估的方法,得到了两个结论,一是 DQN 对于服务是有优化的,二是城市越小,城市布局越简单,这种优化就愈加不明显。

以上就是雷锋网整理的叶杰平教授演讲的全部内容。

想知道关于自然语言处理的更多知识?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180804A1CNBO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券