首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用DNN在连续驾驶场景中进行稳健车道检测的方法

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Robust Lane Detection from Continuous Driving

Scenes Using Deep Neural Networks

作者:Qin Zou, Hanwen Jiang, Qiyu Dai, Yuanhao Yue, Long Chen, and Qian Wang

来源:arXiv 2018

播音员:

编译:谭艾琳

审核:杨宇超

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是——Robust Lane Detection from Continuous DrivingScenes Using Deep Neural Networks,该文章发表于arXiv。

驾驶场景中的车道检测是自动汽车和高级驾驶辅助系统的重要模块。近些年已经出现了很多复杂的车道检测方法。然而,大多数方法集中于从单张图像中检测车道,这样经常导致在处理一些极端恶劣的情形时效果很差,比如大雾,标记严重损毁,车辆严重堵塞等等。实际上,车道是路上连续的线结构。本文使用连续驾驶场景中的多帧信息进行车道检测,并提出了一种结合卷积神经网络(CNN)和循环神经网络(RNN)的混合深度框架。明确来说,每一帧的信息都从一个CNN块提取出来,将具有时间序列性质的多个连续帧中的CNN特征投入RNN块中进行特征学习和车道检测。本文在两种大规模的数据集上做了大量实验证明,本文方法在车道检测上,尤其是在处理一些复杂情形时,超越了其他优秀的方法。

主要贡献

1.本文提出了一种结合CNN和RNN的全新混合神经网络对连续驾驶场景中多帧图像进行车道检测的稳健方法。

2.本文在两种大规模数据集上的实验表明,该方法在各种复杂驾驶情形下(如遮蔽,阴影,堵车,光照不足,车道线磨损等)性能表现超越了当前先进的方法。

算法流程

一、网络概述

图1 本文网络架构

本文所提出的方法结合了CNN和RNN利用驾驶场景中大量连续帧进行车道检测。实际上,在连续的驾驶场景中,汽车摄像头捕捉到的图像是连贯的,因此一帧和其之前帧中的车道通常会重叠,使得在一个时间序列预测框架中进行车道检测成为可能。

为了将CNN和RNN整合成一个端到端的可训练的网络,本文用编码解码框架构建网络。本文提出的网络结构如图1所示。编码CNN和解码CNN是两个全卷积网络。以大量的连续帧作为输入,编码CNN对每一帧进行处理并获取以时间为顺序的特征图。然后这些特征图作为LSTM网络的输入进行车道信息预测。LSTM的输出输入到解码CNN生成车道检测的概率图,该图与输入图像有相同的大小。

二、网络设计

1.LSTM网络

使用LSTM网络是由于其剔除不重要信息和记忆重要特征的能力比传统RNN模型更强。本文使用了双层的LSTM,一层用于连贯的特征提取,另一层用于整合信息。本文在网络中利用卷积LSTM(ConvLSTM)。

一个通用ConvLSTM cell在时间t的激活可以公式化为:

2.编码-解码网络

编码-解码框架将车道检测问题建模成一个语义分割任务。在编码部分,卷积和池化被用于图像提取和特征提取。同时在解码部分,反卷积和上采样用于理解和突出目标信息和在空域上重建它们。

图2 (a)UNet-ConvLSTM和

(b)SegNet-ConvLSTM中的编码网络

从SegNet和U-Net编码-解码结构在语义分割上的成功获得灵感 ,本文通过将ConvLSTM块嵌入这两个编码-解码网络。因此,最后的网络分别被命名为SegNet-ConvLSTM和UNet-ConvLSTM。

三、网络训练

一旦端到端可训练的神经网络搭建好,就可以对其进行训练,通过反向传播过程相对真值进行预测,在反向传播过程中卷积核权重参数和ConvLSTM矩阵将会被更新。训练过程考虑到了如下四个方面。

1.本文所提出的网络使用了SegNet和U-Net在ImageNet上的预训练权重,不仅节省训练时间,而且将合适的权重传给本文网络。

2.N为用于辨识车道的输入驾驶场景连续图像的数量。所以,反向传播时,ConvLSTM的每个权重更新系数都需除以N。实验时,将N设为5作为对比。同时用实验探究了N如何影响网络性能。

3.基于加权的交叉熵构建的损失函数来解决不同的分割任务,可以用如下公式表示

此处l:集合每个像素的真正标签,w为每类的权重,以此平衡车道类别。对整个训练集的两类之间的像素数量设置比率。Softmax按如下定义

4.为了更有效地训练本文网络,本文使用在不用训练阶段使用不同的优化器。开始,使用Adam优化器,网络训练到一个相对较高的准确率时,转而使用随机梯度下降优化器(SGD)。改变优化器时,学习率也应该相应匹配,否则学习过程将会被完全不同的学习步子所扰乱,导致收敛过快或者过慢。学习率匹配如下公式所示

主要结果

1、数据集

基于TuSimple车道数据集和自己的车道数据集构建了一个数据集。TuSimple数据集包含了3626个图像序列。自己的车道数据集包含乡村公路的1148个序列。这在很大程度上增加了车道数据集的多样性。

表1 原始数据集的搭建和内容

训练时,采样5张连续图像作为网络输入,并在最后一帧辨识车道。基于第13帧和第20帧的真值标签,本文构建了训练集。与此同时 ,为了本文网络充分适应不同驾驶速度的车道检测,以三种不同的步幅采样输入,即分别以1,2和3帧作为间隔。然后,对每个真值标签有三种采样方式,如表2所列。

表2 连续输入图像的采样方法

2、实现细节

3、性能比较

1)整体性能

a.视觉检测:一个优秀的语义分割神经网络应该将输入图像分割精确分割成不同的二部分,无论是粗分割还是细分割。

粗分割时,期望模型正确预测出图像中车道的全部数量,即应该避免两种检测错误:漏检和过度检测。细分割中,希望在粗分割结果满意的情况下,模型准确地处理细节。

图3 车道检测结果的视觉比较

图3中的视觉比较从顶部到底部分别为真值,SegNet,U-Net,SegNet-ConvLSTM,U-Net-ConvLSTM和原始图像。本文框架在没有漏检和过度检测的情况下能识别输入图像中的每条车道,且车道位置严格和真值中一致,这也为真实场景中的ADAS系统提供了更可靠的车道预测结果。此外,本文结果中的车道展示为细白线,有更少的模糊区域比如灭点附近的凝集和汽车堵塞引起的模糊预测。

b.定量分析

最简单的评估指标——Accuracy。

如表3所示,在编码器和解码器之间加入ConvLSTM用于序列特征学习之后,UNet准确性上升了1%,SegNet准确性上升了1.5%。

表3 Testset#1上的性能比较

更合理的两个评估指标——Precision和recall。

如表3所示,在加入ConvLSTM之后,精确度有重大提升,同时召回率极其接近于最好的结果。UNet-ConvLSTM的精确度比原来的版本增加了7%,同时其召回率只下降了3%。对于SegNet,在加入ConvLSTM之后精确度提升了6%,其召回率也有轻微上升。

考虑到精确度或召回率只影响车道检测性能的一个方面,我们引入F1-measure作为一个整体评估性能。F1被定义为

在F1 measure中,精确度和召回率的权重相同。其通过无偏差地综合精确度和召回率平衡了其对抗性。如表3所示,本文方法的F1-Measures相比原始版本提升了3%。这些重要的提升显示了多帧在车道预测上比单帧更有效,ConvLSTM对于处理语义分割框架中的序列数据更有效。

c.运行时间

本文模型将序列图像作为输入,并额外增加了LSTM块,它可能增加了运行时间。表3的最后一列可以看出,本文网络处理五帧时比处理单张图像的模型会花费更多时间,比如SegNet和U-Net。

2)稳健性

稳健性测试时,使用包含各种驾驶场景的全新数据集。Testest#2,包含728 张图像,其中有乡村,城市和高速公路场景。数据集通过数据记录仪在不同高度,前挡风玻璃的里外以及在不同的天气状况下捕捉。该测试数据集十分全面并具有挑战性,其中有些车道十分难检测到,甚至是人眼都无法辨认。

图7 在Testet #1和Testst #2具有挑战性的场景下UNet-ConvLSTM未经后处理获得的结果

图7可见,即使车道被汽车,阴影,污迹所遮蔽,以及在各种光照和和道路情况,复杂情形下的车道仍然被完好地检测出来。一些极端的情形下,本文模型也能准确识别出车道。对不同的相机位置和角度,模型也表现出强大的适应性。

表4 12种具有挑战性的场景下的性能(顶部表格:Precision,底部表格:F1-Measure)

表4中所示,在所有场景下,相比其他方法,UNet-ConvLSTM在精度方面有很大程度提升,在大部分场景下实现了最高的F1值,这表明了本文模型的优良性能。

4、参数分析

主要有两种参数可能影响本文方法的性能。一个就是网络输入的图像帧数,另外一个为采样步幅。这两个参数共同决定了第一帧和最后一帧之间的总范围。

表5 具有挑战性的场景中不同参数设置下的性能表现

表5中,在相同采样步幅条件下使用更多连续图像作为输入时,准确性和F1-measure均有增加,即使用多帧图像作为输入时相比单张图像输入时有重大提升。

从表5看出,当帧数固定时,在不同采样步幅下模型获得的性能提升十分相近。其带来的影响微不足道。

Abstract

Lane detection in driving scenes is an important

module for autonomous vehicles and advanced driver assistancesystems. In recent years, many sophisticated lane detectionmethods have been proposed. However, most methods focuson detecting the lane from one single image, and often lead

to unsatisfactory performance in handling some extremely-badsituations such as heavy shadow, severe mark degradation,serious vehicle occlusion, and so on. In fact, lanes are continuousline structures on the road. Consequently, the lane that cannotbe accurately detected in one current frame may potentially beinferred out by incorporating information of previous frames.To this end, we investigate lane detection by using multipleframes of a continuous driving scene, and propose a hybriddeep architecture by combining the convolutional neural network(CNN) and the recurrent neural network (RNN). Specifically,information of each frame is abstracted by a CNN block, andthe CNN features of multiple continuous frames, holding theproperty of time-series, are then fed into the RNN block forfeature learning and lane prediction. Extensive experiments ontwo large-scale datasets demonstrate that, the proposed methodoutperforms the competing methods in lane detection, especiallyin handling difficult situations.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190809A02WO200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券