让无人车理解行人意图做出驾驶决策

来自哈佛大学的初创公司Perceptive Automata正在让自动驾驶汽车实现像人类一样的推理和判断。

行人检测( Pedestrian Detection)一直是计算机视觉研究中的热点和难点。在过去的研究中,行人检测要解决的问题是:找出图像或视频帧中所有的行人,包括位置和大小,一般用矩形框表示,和人脸检测类似,这也是典型的目标检测问题。由于人的外观差异大,遮挡,复杂的背景以及行人的速度不同,给检测带来了很大的难度。再加上即使你成功检测到目标,无法预知行人的下一步动作,也同样会产生安全风险。

近日,来自哈佛大学的初创公司 Perceptive Automata 公布了他们最新的研究成果,他们通过深度学习将这种人类才有的直觉应用于自动驾驶汽车中。

当人在驾驶过程中,你会通过行人的面部表情,肢体行为,对方手持物品等视觉线索,只需轻轻一瞥,就可以了解到一个人的很多信息。比如你可以判断正在过马路的行人是否已经疲惫、正在分心或是很匆忙,根据他的穿着打扮也可以看出他是下班回家还是去健身房。大脑非常擅长处理此类感知,以至于人类都很难意识到自己在做的这些判断。

当无人驾驶的研发过程中,把行人的肢体语言或对方手持物品等视觉线索作为驾驶决策形成的重要信息,通过使用一些深度学习算法,使用真实世界的人类行为数据来训练算法,同时运行这些算法以此来驱动汽车的 AI技术,汽车就能够更为全面地了解周围环境,从而增强安全性。

有人会说“理都懂,然并卵”,然而 Perceptive Automata 的软件正在实现这项不可能完成的任务。

Perceptive Automata的行人行为理解算法

传统训练方法会使用一系列同一物体的图片,教会神经网络辨别该物体。例如,工程师会向深度学习算法展示数百万张救护车的图片,然后该软件就能够自主识别出救护车。

Perceptive Automata 没有使用指向同一概念的多张图片进行训练,而是让数据可以用一幅图向神经网络传达一系列信息。通过结合面部表情与其他标志物(如某人正拿着咖啡或手机),该软件可以推断出行人的注意力集中在何处。

Perceptive Automata 训练的神经网络可理解人类行为,从而实现安全的自动驾驶。他们同时借助了 NVIDIA DRIVE 强大的性能以及节能的特性,通过车载深度学习平台让软件可以分析一系列肢体语言标志,并推断出行人的路线。该软件可以对汽车视野内的一个人或整个人群进行计算,从而为道路上的每个人创造更安全的环境。

其联合创始人萨姆安东尼说:“我们正在建立一个模块,让自动驾驶汽车能够了解人类在路上的心态。” 他告诉我们,该软件将“让自动驾驶汽车能够看到一个人,并以类似人的理解,'这个人想过马路,这个人知道我的车在这里。'”通常情况下,机器学习算法可以利用客观数据来训练算法,Perceptive Automata 是依赖于人的主观判断思路来提供用于训练其算法的数据。

该公司要求人们观看视频剪辑,然后在其中标记行人,最好能判断每个行人是否试图过马路以及他是否注意到了这辆车。Perceptive Automata的工程师然后使用这个标记视频数据集来训练机器学习算法,以做出同样的判断。

该公司把其研究成果做成了一个软件模块,任何自动驾驶汽车制造商都可以购买并放入其现有的驾驶堆栈中。Perceptive Automata 认为,自动驾驶汽车制造商应该将其视为一种额外的传感器,可以有效地读取车辆周围行人的思想。然后,将这种“传感器”数据与来自摄像机,激光雷达和其他硬件传感器的数据相结合,以实现更平稳,更自信的驾驶。

听起来很心动,但是开发自动驾驶汽车的公司是否真的会将此功能外包给第三方做,而不是在内部开发这种功能。安东尼告诉我们,制造自动驾驶汽车的公司有很多东西在他们的盘子里,他们写了无数的代码去保证车辆安全,如果有现成的软件模块,他们不会再去花费更多的时间去研究这些细节。对于那些正在全力以赴的实现无人驾驶商业化的公司来说,他们真正的战场在让测试车队如何更安全的路测上。Nvidia 将 Perceptive Automata 作为合作伙伴,Perceptive Automata 目前的客户包括汽车制造商及其一级供应商,以及一些创业公司。

行人意图研究现状

该公司相关论文笔者目前并没有找到,关于此类研究目前较少。西班牙巴塞罗那自治大学计算机科学系(UAB)Zhijie Fang 等人通过分析行人的姿势来确定他或她是否要进入道路。他们基于CNN的现成2D行人姿势估计方法,从单目图像开发行人意图的检测器。在一个合适的人体骨架上,定义了关键点的相对特征,和高效的机器学习方法(SVM,RF)一起,能够理解诸如交叉与停止,弯曲和行动等行人的动作。Perceptive Automata 认为这种完全基于他们观察到的行为来预测行人运动的方法,没有结合行人的心态来注释训练数据。

通过行为科学去建立AI正成为下一代人工智能汽车的重要研究方向。李德毅院士团队曾在《自驾驶交互认知》论文中也表达过:目前自动驾驶技术在交互认知上的缺失,不仅体现在行人的肢体语言交互,还体现在基于自然语言的交互认知等方面。这种结合了行为科学(包括认知心理学,神经科学和心理物理学)技术,通过软件平台底层的机器学习模型来训练行人意图识别的方法相比普通的目标识别似乎更加智能。至少,将来无人车与行人不必分开,让行人拥有换用的“人行道”。

来源:智车科技

系列自媒体

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180804B0IHWB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券