让AI自动调参,才是百度无人车的进化方式:适应环境全靠自己 | 论文

车栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI

自动驾驶汽车,需要应对各式各样的路况,工作环境是每时每刻在变化的。

所以,训练好L4级的自动驾驶系统并不简单。需要依赖奖励函数 (Reward Function) 和代价函数 (Cost Function) 。

如此一来,研究人员需要花大量精力,给强化学习里的这些函数调参环境越复杂,调参的工作就越难做。

不过,百度自动驾驶部门的人类,想要解放双手,将调参重任托付给AI自己。

于是,他们开发了自动调参方法,让AI能够用更短的训练时间,获得应对复杂驾驶场景的能力。

划重点:快速适应多种环境

离线调参更安全

自动驾驶汽车,需要能应付各种场景的AI系统。

这个动作规划系统,是基于百度Appollo自动驾驶框架研发的。

系统是数据驱动的,用到的数据包括专家驾驶数据周围环境数据

上图可以看出,系统分为离线在线两个部分:

1.在线模块,负责生成一条最优的运动轨迹,用的是奖励函数。 2.离线调参模块,才是用来生成奖励函数代价函数的,且是可以随着环境调整的函数。

所以,第二部分是重点。要看一组参数好不好,模拟测试路测都不可少 (如下图) 。

为了减少反馈循环 (Feedback Cycles) 消耗的时间,百度用基于排名的条件逆强化学习 (Rank Based Conditional IRL) 框架,来调教奖励/代价函数,代替漫长的手动调参。

模型是如何炼成的

那么,看看模型具体的样子:

还是在线离线两部分,不过可以看出这个新的强化学习调参框架 (RC-IRL) 所在的位置了。

工作流程

原始特征生成器 (Raw Feature Generator),从环境里获取输入,评估采样轨迹或者专家驾驶轨迹。从中选出一些轨迹,给在线模块和离线模块共同使用。

从轨迹中,把原始特征提取出来之后,在线评估器中的奖励/代价函数,会给出一个分数

最后,把分数排列出来,或者用动态规划 (Dynamic Programming) ,来选择最终输出的一条轨迹。

训练过程

训练数据是从1000+小时的专家驾驶数据里选出来的,把没有障碍物没有车速变化的部分剔除了,余下7.18亿帧,保障训练的难度。

训练过程是离线的,适用于大规模测试,也适用于处理边角案例 (Corner Cases) 。

另外,数据也是自动收集、自动标注的,又为人类节省了体力。

价值函数,用SIAMESE网络来训练。这一部分,是用来捕捉驾驶行为的,依据许多特征来捕捉。

训练好了,就去参加测试。模拟测试的内容包括:停车,转弯,变线,超车以及更加复杂的场景。

模拟器之后是路测。截至今年7月25日,系统已经历了超过25,000英里的路测。团队说,AI到目前为止表现良好。

再赢一次?

两天前,百度宣布和神州优车达成合作,一同探索自动驾驶技术的商业化。

一周前,Waymo子公司“惠摩”落户上海。

自动驾驶的赛场上,谁也不会放慢脚步。

有一天,如果Waymo无人车来了中国,不知百度能不能“再赢一次”。

论文传送门: https://arxiv.org/pdf/1808.04913.pdf

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习到顶,AI寒冬将至!

19520
来自专栏机器之心

专访 | MINIEYE首席科学家吴建鑫:用单目摄像头实现自动驾驶的视觉感知

机器之心原创 作者:朱思颖 「车载硬件处于典型的资源受限环境之下,如何将深度学习应用于这样的受限环境是有效落地智能硬件的方式之一。」MINIEYE 首席科学家...

35880
来自专栏专知

人工智能的冬天,正在路上?

25330
来自专栏AI科技大本营的专栏

必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢

作者 | Flavian Hautbois 翻译 | AI科技大本营(rgznai100) 参与 | JeyZhang,波波 上个月,我们发了很多文章。但是,机...

28560
来自专栏人人都是极客

如何加速深度学习?GPU、FPGA还是专用芯片

计算机发展到今天,已经大大改变了我们的生活,我们已经进入了智能化的时代。但要是想实现影视作品中那样充分互动的人工智能与人机互动系统,就不得不提到深度学习。

11510
来自专栏专知

FastText:自然语言处理的利器——一个快速文本表示和分类库

【导读】FastText是Facebook人工智能研究实验室(FAIR)开源的一个文本处理库,他是一个专门用于文本分类和外文本表示的库,致力于提高文本表示和分类...

1K60
来自专栏人工智能头条

讲真?一天就学会了自动驾驶——强化学习在自动驾驶的应用

14720
来自专栏大数据文摘

我们对比了GitHub上8800个开源机器学习项目,并选出了其中的Top30

18740
来自专栏机器学习算法与Python学习

速腾聚创软硬结合将自动驾驶将激光雷达量产化、低成本发挥到极致

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 ? 2017年7月9日,中国计算机学...

44460
来自专栏人工智能快报

英伟达公开其自动驾驶深度学习机制

美国公司英伟达(NVIDIA)发文公开了其自动驾驶汽车的深度学习机制。 深度神经网络的自主学习能力是它的一个强项,因为随着经验的增加,机器变得越来越好;该能力也...

34940

扫码关注云+社区

领取腾讯云代金券