观点 | 滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践

AI 科技评论按:7 月 29 日,YOCSEF TDS《深度强化学习的理论、算法与应用》专题探索报告会于中科院自动化所成功举办,本文为报告会第一场演讲,讲者为滴滴副总裁、AI Labs 负责人叶杰平教授,演讲题为「深度强化学习在滴滴的探索与实践」,AI 科技评论对本次演讲内容进行了重点整理。

据介绍,现在的滴滴平台每日路径规划请求 400 多亿次,每日新增 100+TB 的轨迹原始数据,每日处理数据量为 4875+TB。海量大数据也让滴滴能更积极地进行 AI 研究和布局。

据叶杰平教授介绍,滴滴的 AI 战略和布局主要围绕三个层面展开,最底层是基础的 AI 算法,比如强化学习算法、深度学习算法等;中间一层则是滴滴拥有的非常核心的 AI 技术,如语音、自然语言处理、图像等;而最上一层则是 AI 技术支持的应用—包括用技术创新提高出行平台的用户体验,以人工智能、大数据技术助力城市建设智慧交通网络,布局智能驾驶及新能源汽车等领域。

叶杰平教授还介绍了滴滴的智能决策中心滴滴大脑。首先,地图服务是交易引擎必不可少的一项基础服务,其中有两项重要的服务,一项是路径规划,另一项是 ETA(Estimated Time of Arrival)。比较理想的路径规划需要达到三个目标,一是最小化费用,二是最大化司机工作效率,三是优化交通系统效率。目前,Dijkstra 算法和 A star 算法是最常见的路径规划算法。为了更高效的提供服务,基于 Dijkstra 的改进算法 Contraction Hierarchies 也是目前业界的主流解决方法。ETA 服务可以应用于多项任务,比如估计到达时间,估计未来行驶时间,提供数字地图/导航的基础服务。滴滴自 2015 年自主研发了 ETA 的机器学习解决方案,经过了不断的更新迭代,目前主要使用深度神经网络的方法,并且设计了针对性的深度神经网络-宽深循环学习(Wide-Deep-Recurrent Learning),进一步提升了预估精度。相关算法实践也被写入《Learning to Estimate the Travel Time》论文,被国际数据挖掘领域顶级会议 KDD 2018 收录。

滴滴叶杰平教授还介绍了深度强化学习技术在滴滴智能派单中应用。由于派单的决定会影响未来的司机分布,且派单既要考虑司机收入还要保障用户体验,综合考虑这两个需求,叶杰平教授介绍了两种方法来解决派单问题,一种方法是 MDP(Markov Decision Process),另一种是深度强化学习。

首先是 MDP,MDP 在派单中的应用中分为两个部分,一是线上的计划过程,二是离线的学习过程,这两个过程结合了强化学习和组合优化。考虑到每一次匹配对未来是有影响的,这样可以能基于全天供需、出行行为预测,来考虑一天之内司机整体的效率。

离线学习——策略评估

线上计划——优势函数

最终的结果显示,这种基于强化学习和组合优化的派单算法能在确保乘客出行体验的同时明显提升司机的收入。相关模型实践论文也将在国际数据挖掘顶级会议 KDD 2018 中以 Oral 形式发表。

叶杰平教授介绍的第二种方法是深度强化学习,深度强化学习在应用中具有如下几个优点,一是对于实时供需变换具有良好的适应性,二是可以学习不同城市和时间段的数据,三是由于输入(上车地点,时间,目的地,内容)权重共享,所有泛化能力强。具体使用的深度强化学习模型是带有行动搜索的 DQN(Deep Q-network)模型。训练过程如下所示。

最后叶杰平教授比较了 DQN 和策略评估的方法,得到了两个结论,一是 DQN 对于服务是有优化的,二是城市越小,城市布局越简单,这种优化就愈加不明显。

以上就是雷锋网整理的叶杰平教授演讲的全部内容。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习AI算法工程

两个月入门深度学习,全靠动手实践

向AI转型的程序员都关注了这个号??? 搞CNN的工程应用有一段时间了,特别是在计算机视觉领域。分享下我自己的CNN学习历程。 简单的说,深度学习就是模仿人脑...

50080
来自专栏AI研习社

未来 3-5 年内,哪个方向的机器学习人才最紧缺?

既然已经身在工业届,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域。相较而言,工业界对人...

29660
来自专栏Bingo的深度学习杂货店

图像识别——突破与应用

最近,图像识别领域发布了白皮书,简单翻译一下做个总结。 ---- 目录 [1] Introduction      1.1 Exponential Growt...

1.9K110
来自专栏量子位

未来 3~5 年内,哪个方向的机器学习人才最紧缺?

作者:阿萨姆 普华永道 | 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。 不...

27650
来自专栏新智元

【Quora直播】LeCun:深度学习突破,对抗式网络最值得期待

【新智元导读】Facebook AI实验室负责人、深度学习三驾马车之一的Yann LeCun今天(没有错,就在几个小时之前!)在Quora上回答提问,有一万多人...

34130
来自专栏腾讯音视频实验室

Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告

2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。 Interspeech是由国际语音通信协会ISCA(...

53360
来自专栏PPV课数据科学社区

机器学习的五层境界

前些天在一场关于机器学习的直播中,介绍了自己总结的机器学习的五层境界。很多同学后来私信我说,总结的不错,对他们的学习目标具有一定的参考意义。Ryan表示很开心,...

40280
来自专栏华章科技

大数据深度学习下车辆厂牌型号识别

车辆身份识别系统是智能交通的重要分支,它需要人工智能、图像处理、计算机视觉、模式识别等相关技术的综合应用。目前国内的车牌识别技术已经日益成熟,随着智能交通技术应...

17220
来自专栏人工智能头条

微软人工智能首席科学家邓力:深度监督学习的局限和破解思路

14930
来自专栏机器之心

专访 | 三角兽首席科学家王宝勋:热度之下的对话生成

机器之心原创 作者:邱陆陆 从 EMNLP 入选论文《Neural Response Generation via GAN with an Approxima...

427110

扫码关注云+社区

领取腾讯云代金券