地平线余凯：自动驾驶发展的理性主义道路

新智元

发布于 2018-03-26 10:26:31

7000

发布于 2018-03-26 10:26:31

文章被收录于专栏：新智元

【新智元导读】地平线机器人创始人余凯18日在自动化学会与新智元携手举办的首届 AI WORLD 2016世界人工智能大会智能驾驶论坛上发表演讲。余凯在演讲中介绍了地平线要让“AI Inside”无处不在的雄心，具体到无人驾驶，余凯提出理性主义路线的三个维度思考：第一是驾驶场景，从高速到非高速，从特定区域比如园区到更加广泛的区域。第二个维度是人机关系，从一开始机器是辅助人，到后来机器控制占主导，到最后系统在没有干预下无人驾驶。第三个是技术路线。本文为演讲内容实录和PPT。

余凯：各位朋友下午好！感谢新智元组织这么精彩的活动，让大家在一起就一个激动人心的话题碰撞。刚才滴滴张博给我们分享了大数据人工智能使得出行更加方便，James Peng代表百度介绍了目前国内最先进的无人驾驶技术走到了哪一步。

地平线定位我们自己是人工智能的方案提供商。我们方案的独特性在于我们思考人工智能未来，比如自动驾驶场景下，它的算法是什么样的架构，这样的架构对我们的硬件，比如最核心的硬件——处理器应该带来什么样的重构跟重定义，然后我们思考怎么提供整合处理器以及算法软件等的解决方案。

一、让“AI Inside”无处不在

我们知道从整个八十年代到九十年代，一直到今天，改变世界的一股力量就是摩尔定律，它的代表就是英特尔倡导的英特尔 inside。摩尔定律继续发展，从PC时代到移动互联网时代，以及更远的未来，我们会见到形态更加多样化的智能终端，这些智能终端带来的需求是完全不一样的。我们必须要重新思考未来something inside，something inside会成为改变未来世界的重要力量。地平线希望定义something，something就是人工智能。地平线的使命就是定义万物智能，实现AI inside，让AI无处不在，目前将重点在智能驾驶、智能生活两个领域去思考。

我们希望做的是万物智能的大脑，首先是人工智能的处理器。当我讲人工智能处理器不仅仅是指深度学习，我们必须在更宽广的世界探查现今人工智能的发展以及未来的趋势，以及在上面运行的系统软件跟应用软件框架。我们希望这样的大脑平台能够带来综合性能，包含它的指标、功耗等，至少三个数量级的性能的提升，使得我们的无人驾驶能够变为可能，使整个行业能够更加快速的往前发展。就像英特尔、高通，这些企业给世界带来的变化一样，让很多事情变成可能，让很多企业在这样的平台上去构建他的人工智能方案。

二、极具挑战的自动驾驶技术研发场景

毫无疑问，我们今天的论坛是讲自动驾驶，构建自动驾驶的处理器，以及它的软件计算平台是地平线最重要的使命。在中国思考这个问题有特殊的意义，因为我们是全球第一大汽车市场，一年有将近2500万车辆投入市场。中国也拥有极具挑战性的自动驾驶技术研发场景，我们有非常有“创造性”的司机，极具“创造性”的驾驶行为，有非常拥堵的道路，这一点身在北京大家都感同身受，还有永远在建设中的道路，非常多样化的车辆形态等等，这些是特斯拉以及所有自动驾驶的厂商在中国都会面临的巨大挑战。

还有一个很尴尬的排名，我们不但是世界上第一大汽车市场，同时每十万人交通死亡率，我们现在也是世界第一。我看到这个数字当时觉得很震惊，印象中会觉得像印度、墨西哥那种嘈杂的城市情形，交通死亡率应该比我们更高，但其实不是这样。所以我觉得让交通怎么样变得更加安全，变得更加便捷，变得更加有乐趣，这个是我们需要去思考的。

汽车产业是所有垂直产业里，对产业的经济规模以及整个产业链影响最大的一个产业。最近像谷歌、百度、优步，以及很多的创业公司都突然涌进了汽车这个有着上百年历史的产业。我自己当初也是野蛮人中的一员，但是今天我想跟大家谈的是自动驾驶发展的理性主义道路，与James Peng所代表的百度以及谷歌的相对激进主义的无人驾驶技术发展道路不同，我今天想表达一点，就是也许还有另外一条道路，就是更加理性的发展道路。这样的思想是今天主流车厂，以及它的供应商所拥抱的路线。

无人驾驶对整个社会的影响意味着什么？以通信产业做一个类比，在80年代、70年代、60年代打电话都是接线员来接听，接线员说打电话找谁，我说找国务院什么办，就拿这个东西往那一插，一个人平均记几百个单位对应的哪个插口，效率很低下。随着科技的发展，有了程控交换机，效率大大提生了。随之有了巨无霸式中国电信运营商，华为这样的基础设备提供商，在设备之上无数终端制造商，以及在上面跑的应用，才有了今天移动互联网所带来的巨大繁荣生态。我认为无人驾驶撬动的是一个至少跟通信产业一样规模的历史，甚至比这更大。因为现在的交通运输就类比当年的接线员时代，因为从A到B地是人来完成，这里面效率的低下，资源的重复利用，是亟待改变。我们会有类似于华为这样的设备提供商，我们也会有终端，智能终端，因为车会重新定义智能化、新能源化。另外所有出行服务，都随着这个平台的发展而不断发展优化，所以它重构的是整个产业。因而今天互联网公司、车厂、供应商等都要拥抱汽车产业的这个趋势，而且一定要找到自己在其中的位置。地平线怎么思考我们的位置呢？我们就是供应商。我们希望成为一个供应商，让整个自动驾驶门槛能够降低。

刚刚一直讲无人驾驶，无人驾驶说说容易，但是真的那么简单吗？有一个新闻，2014年9月至2015年11月期间，谷歌无人车司机不得不出手对无人驾驶汽车进行干预，否则这些汽车将发生13次碰撞事故。而在42.4万英里行驶里程中，谷歌无人驾驶汽车共发生341次“脱离无人驾驶”事故。无论是互联网公司的，还是最先进的车厂的无人车原形我都坐了，每次都必须要人工干预。

谷歌无人车刚刚离职的负责人Chris Urmson讲，实现无人驾驶可能需要30年时间。具体数字并不重要，我要跟大家分享的是目标很浪漫，但是道路并不容易，很多问题可能远超我们的想象。

三、自动驾驶发展的理性主义道路

刚才James Peng也提到了在国际上有对整个自动驾驶发展道路的渐进式的分级，这里不光是分级，很重要的是还有时间线，这个时间线准确性也不重要，它只是反映一个共识。这个时间线从我了解的情况看，主流供应商、主流车厂还稍微显现地激进了一点。一开始是有限场景的自动驾驶，第一个场景是高速公路，到2020年或者到2023年实现L4的自动驾驶。从高速公路到非高速公路场景将变得更加复杂，这里是演进路线会更加细腻。比如非高速公路上如果在十字路口不拐弯的情况下，自动驾驶可以先实现，但如果需要拐弯这个功能又要往后沿2-3年。这是非常漫长的发展过程，我认为这样的发展道路是很难避免的。

理性主义路线的三个维度思考：第一是驾驶场景，从高速到非高速，从特定区域比如园区到更加广泛的区域。第二个维度是人机关系，从一开始机器是辅助人，到后来机器控制占主导，到最后系统在没有干预下无人驾驶。这里还要思考一个问题，是禁止人干预还是允许人干预，人跟机器的权利分配是什么样的，什么场景下人可以干预，这到目前为止都是没有想清楚的问题，因为还比较远，所以现在可以先想着。第三个是技术路线，从感知到规划，到基于深度学习的感知到自动黑箱系统，到基于因果推理性的可控的白箱系统，我们怎么演进，从算法到处理器。

地平线思考是我们关注在整个自动驾驶里的计算部分，包括算法、处理器，从定位到识别、检测、跟踪、预测，到三维场景的理解，以及到路径的规划。控制这件事跟计算没关系，就让车厂还有其它合作伙伴做好了，我们只做跟计算有关的。

从感知层面讲需要思考，深度学习的一个计算框架怎么样处理多任务，因为路面上面有交通标志，有红绿灯，有车道线、可行驶区域，以及它们之间的相互耦合关系。比如车在下5秒前进路线，这个车往这个方向，这个车是不可能往这个方向走。多任务对每个目标的识别跟踪是互相影响的，这样的影响怎么样在多任务的框架下面用统一的网络，同时节省计算处理。这也会影响到对处理器的构架。

这是地平线目前基于FPGA的辅助驾驶处理器以及我们算法软件在路面上面所跑的情况，我们的思考是在一千块钱能够买到的计算资源上做什么样的事情，因为未来的量产汽车一定要控制成本，不能跟像今天比如GPU或者其它的计算所需要的成本一样，所以成本是非常非常关键的。

这是与世界知名厂商的感知准确度的对比，地平线的性能明显优于它。身处中国我们必须面对这样的问题，就是在一个非常复杂嘈杂的路况上面，怎么做精准的实时的感知。这样的一个问题通常跟国际上同一个时期他们所得出的结果比，我们在中国面临的场景复杂度更高，欧洲或者美国街上面是没有这么多人的。在中国因为这样的场景使得我们能够研发世界上最好的技术。

这里看一个实例，这是在中国复杂场景下的行人和车辆检测结果，需要在非常丰富的维度里理解这个场景。这个场景如果你做目标检测，这样的目标形态是非常多样化的，但是我们怎么样在这个场景中寻找相对稳定的结构，使得你的判断能够更加理性？

这是外国公司在德国高速公路上面的检测结果，在百度发布的视频里也有类似的情况，这是大家共性的情况，这个大卡车是没有检测的，后面那个卡车相对比较远，因为你没有看到这个物体的全貌，所以检测不到。最近大家看到在新闻里广泛报道的特斯拉致命事故，就是因为靠得很近的卡车突然横穿路面，整个检测系统因为没有看到卡车的全貌，认为就是一堵墙，所以没有检测到。这种情况下如果对哪个地方可行驶路面有基本的把握的话，是可以防止这种事故产生的。包括检测法律上可行驶的区域，而不仅仅是物理可行驶区域，以及对各种包括夜间可行驶区域的检测。

我刚刚讲了前面做的都是感知，感知现在大趋势就是用深度学习做感知计算。但是另外一个趋势就是因果推理，这样的人工智能框架是JUDEA PEARL80年代建立的，他也因此拿到了图灵奖。决策系统首先必须是可控的，尤其是在自动驾驶的场景。

因果推理典型的范例就是基于增强学习的决策框架，它把一个决策问题看作是一个决策系统跟它所处环境的一个博弈，这个系统需要连续做决策，就像开车一样。优化的是长期总的收益，而不是眼前收益。比如投资连续决策买什么卖什么，优化不是明天的收益，而是明年或者十年以后的长期总收益。

谷歌把这样的框架用在下围棋上，取得了革命性的成功。自动驾驶也是非常适合去应用这样的决策系统的场景。比如说要构建价值网络风险评估，评估当前的风险，优化的是现在时间到未来时间整体的风险，控制目标是这样的。同时构建一个基于当前路况的计算决策策略的概率分布。你是可以用增强学习的框架，从很多驾驶员的历史行为，以及仿真的环境里，学习概率分布。

另外一个对于自动驾驶这样新的软件的问题需要重新思索它的计算架构，这个人叫Alan Kay，也是图灵奖获得者，历史上发明了GUI，图形用户介面。他有一句话是乔布斯一直信仰的：如果你真的是serious思考你的软件，你要做你自己的硬件。

这是我当年在百度无人车的时候把后备厢打开，今天任何车厂的无人车的原形后备厢打开都是一坨机器，不但没有地方放行李，而且还要解决三个问题，它的整个系统稳定性问题等，这让我想起了，我还是对标信息产业发展路径，让我想起了70年代IBM小型机，英特尔、微软、苹果这三家不断把这个东西小型化，通过芯片、通过软件、操作系统，使得PC机到今天发展到移动手机。

人工智能的处理器在过去从差不多2012年开始大家已经开始广为关注，比如GPU到FPGA到TPU，大家不断在思考怎么样重构人工智能的处理器。