机器视觉的辅助驾驶系统

要提升·到焉知

焉知焉知·焉能不知

1、机器视觉发展

国外机器视觉发展的起点难以准确考证,其大致的发展历程是:20世纪50年代提出机器视觉概念,20世纪70年代真正开始发展,20世纪80年代进入发展正轨,20世纪90年代发展趋于成熟,20世纪90年代后高速发展。在机器视觉发展的历程中,有3个明显的标志点,一是机器视觉最先的应用来自“机器人”的研制,也就是说,机器视觉首先是在机器人的研究中发展起来的;二是20世纪70年代CCD图像传感器的出现,CCD摄像机替代硅靶摄像是机器视觉发展历程中的一个重要转折点;三是20世纪80年代CPU、DSP等图像处理硬件技术的飞速进步,为机器视觉飞速发展提供了基础条件。

国内机器视觉发展的大致历程:真正开始起步是20世纪80年代,20世纪90年代进入发展期,加速发展则是近几年的事情。中国正在成为世界机器视觉发展最活跃的地区之一,其中最主要的原因是中国已经成为全球的加工中心,许许多多先进生产线己经或正在迁移至中国,伴随这些先进生产线的迁移,许多具有国际先进水平的机器视觉系统也进入中国。对这些机器视觉系统的维护和提升而产生的市场需求也将国际机器视觉企业吸引而至,国内的机器视觉企业在与国际机器视觉企业的学习与竞争中不断成长。

未来机器视觉的发展将呈现下列趋势:

(1)技术方面的趋势是数字化、实时化、智能化

图像采集与传输的数字化是机器视觉在技术方面发展的必然趋势。更多的数字摄像机,更宽的图像数据传输带宽,更高的图像处理速度,以及更先进的图像处理算法将会推出,将会得到更广泛的应用。这样的技术发展趋势将使机器视觉系统向着实时性更好和智能程度更高的方向不断发展。

(2)产品方面:智能摄像机将会占据市场主要地位

智能摄像机具有体积小、价格低、使用安装方便、用户二次开发周期短的优点,非常适合生产线安装使用,越来越受到用户的青睐,智能摄像机所采用的许多部件与技术都来自IT行业,其价格会不断降低,逐渐会为最终用户所接受。因此在众多的机器视觉产品中,预计智能摄像机在未来会占据主要地位。

另外,机器视觉传感器会逐渐发展成为光电传感器中的重要产品。目前许多国际著名的光电传感器生产企业,如KEYENCE,OMRON,BANNER等都将机器视觉传感器作为光电传感器中新型的传感器来发展与推广。

(3)市场份额迅速扩大

一方面已经采用机器视觉产品的应用领域,对机器视觉产品的的依赖性将更强;另一方面机器视觉产品将应用到其他更广的领域。机器视觉市场将不断增大。

(4)行业方面发展更加迅速

机器视觉行业专业性公司增多,投资和从业人员增加,竞争加剧是机器视觉行业未来几年的发展趋势,机器视觉行业作为一个新兴的行业将逐步发展成熟,将越来越越受到人们的重视。

更多功能的实现主要是来自于计算能力的增强,更高分辨率的传感器(10Mpixels),更快的扫描率(500次/s)和软件功能的提高。PC处理器的速度在得到稳步提升的同时,其价格也在下降,这推动了更快的总线的出现,而总线又反过来允许具有更多数据的更大图像以更快的速度进行传输和处理。

产品的小型化趋势让这个行业能够在更小的空间内包装更多的部件,这意味着机器视觉产品变得更小,这样他们就能够在厂区所提供的有限空间内应用.例如在工业配件上LED已经成为主导光源,它的小尺寸使成像参数的测定变得容易,他们的耐用性和稳定性非常适用于工厂设备。智能相机的发展预示了集成产品增多的趋势。智能相机是在一个单独的盒内集成了处理器、镜头、光源、输入/输出装置及以太网。电话和PDA推动了更快、更便宜的精简指令集计算机(RISC)的发展,这使智能相机和嵌入式处理器的出现成为可能。同样,现场可编程门列阵(FPGA)技术的进步为智能相机增添了计算功能,并为PC机嵌入了处理器和高性能桢采集器.智能相机结合处理大多数计算任务的FPGA,DSP和微处理器则会更具有智能性。小型化与集成产品正在一起为实现“芯片上的视觉系统”的最终目标而努力。尺寸更小、更密集的存储卡及成像器分辨率的提高有助于智能相机的开发和扩展。

智能车辆(intelligentvehicles,IV)是智能交通系统(in2telligenttransportationsystems,ITS)的重要构成部分,其研究的主要目的在于降低日趋严重的交通事故发生率,提高现有道路交通的效率,在某种程度上缓解能源消耗和环境污染等问题。

2、研究背景及意义

随着我国机械工业的迅猛发展,汽车行业也实现了新的跨越。汽车的普及带来了许多危害,诸如:“汽车尾气”对环境的污染、消耗汽油造成能源的紧缺、交通拥挤、交通事故等等。

目前,我国的交通安全形势日益严峻,交通事故频繁发生,财产损失和人员伤亡惨重。虽然我国仅拥有全世界约2.5%的汽车,但是引发的道路交通死亡事故占世界的15%,己是交通事故多发的国家。交通事故是全球性关注的一个热点,其对人类的危害已超出了洪水、地震、火灾等自然灾害,是导致行人死亡的一个主要因素。在道路交通事故中,自行车骑车人和行人往往处于弱势地位,一旦与机动车发生碰撞,是很容易受到伤害的。事故带来的灾难,使一个个家庭陷入了不幸的痛苦之中.人们对出行安全的渴盼,成为社会公共安全的重要话题.为了有效地保护行人,行人检测和跟踪技术得到了车企及消费者的重视。

随着我国汽车保有量的迅速增加,道路交通事故频发,特别是车辆与行人发生碰撞而引发交通事故是导致行人伤亡的主要原因。交通引发的各种问题尤其是行驶安全问题日益受到人们的关注,这就使得安全辅助驾驶系统的应用在我国具有更大的紧迫性和现实意义。对车辆前方行人进行检测是汽车安全辅助驾驶系统所必需具备的功能之一,己经引起了世界各国政府部门和相关研究机构的高度重视及商家的浓厚兴趣,它能有效地辅助在市区环境中驾驶车辆的驾驶员及时对外界环境做出反应,避免碰撞行人。行人检测技术的研究开发将为我国汽车安全辅助驾驶技术的发展提供有力的理论和技术支持,并具有潜在的经济价值和应用前景。

利用传感器技术来探测车辆前方的障碍物,包括行人车辆以及自行车等,及时警告驾驶员可能与潜在的障碍物发生碰撞,减少这类碰撞交通事故发生的损失和人员伤亡。如果驾驶员没有及时采取有效的措施来避免与行人等障碍物发生碰撞,可以采取自动驾驶功能接替驾驶员避免这种紧急状况的发生,如通过车上安装的自动转向和自动制动功能接替驾驶员实现自动转向或制动,有效地提高城市交通的安全性。

行人检测是城市交通环境下的智能车辆辅助导航技术中的一项关键技术,也是目前计算机应用领域的研究热点之一。它处于智能车辆辅助导航技术的底层,是各种后续高级处理如目标分类,行为理解的基础,对于保障现代城市道路交通安全具有重要的作用,同时具有十分广阔和重要的应用领域。运动行人检测在智能控制系统,虚拟现实,机器人应用等方面也将得到广泛的应用。

行人检测与跟踪技术不仅在智能交通系统和视频监控系统中有广泛的应用,而且在虚拟现实、机器人应用等方面有着非常重要的研究价值。行人跟踪是一个复杂的系统工程,它涉及了人体生理学、心理学、计算机视觉、模式识别、等多方面的问题。

3、研究内容

基于计算机视觉的行人检测由于其在车辆辅助驾驶系统中的重要应用价值成为当前计算机视觉和智能车辆领域最为活跃的研究课题之一。其核心是利用安装在运动车辆上的摄像机检测行人,从而估计出潜在的危险以便采取策略保护行人。行人检测除了具有一般人体检测具有的服饰变化、姿态变化等难点外,由于其特定的应用领域还具有以下难点:摄像机是运动的,这样广泛应用于智能监控领域中检测动态目标的方法便不能直接使用;行人检测面临的是一个开放的环境,要考虑不同的路况、天气和光线变化,对算法的鲁棒性提出了很高的要求;实时性是系统必须满足的要求,这就要求采用的图像处理算法不能太复杂。

基于视觉的行人检测系统一般包括两个模块:感兴趣区(ROIs)分割和目标识别。根据分割所用的信息,可将 ROIs 分割的方法分为基于运动、基于距离、基于图像特征和基于摄像机参数四种方法。基于运动的方法通过检测场景中的运动区域来得到 ROIs。基于距离的方法通过测量目标到汽车的距离来得到ROIs 。可以用来测距的传感器主要包括雷达和立体视觉。基于图像特征的方法指通过检测与行人相关的图像特征从而得到 ROIs 。对于可见光图像来说,常用的特征包括竖直边缘、局部区域的熵和纹理等。对于红外图像来说,主要根据人体尤其是人脸的温度比周围环境温度较高这一特征,通过检测一些“热点” (Hot spot) 来得到 ROIs。摄像机的安装位置和摄像机参数也是一个很重要的考虑因素. 它对行人在图像上出现的位置和每个位置上目标的大小给出了很多限制, 合理利用这些限制可以大大地缩小搜索空间。

如图1所示,行人检测分为以下几个步骤:预处理阶段,首先通过传感器获得车辆前方的图像信息,对这些信息做预处理(如降噪、增强等);分类检测阶段,用图像分割、模型提取等一些图像处理技术在图像中选取一些感兴趣的区域(Regions of Interest,ROIs),即行人的候选区域,然后对ROIs进行进一步的验证,用分类等技术方法判断候选区域中是否包含行人;决策报警阶段,对含有行人的区域进行跟踪,得到行人的运动轨迹,提高检测精度和速度的同时,也能对行人是否会和车辆发生碰撞进行判断,对可能发生碰撞的情况,进行报警或者其他避免碰撞的操作。

在行人检测系统中,分类检测阶段是最为重要的一个阶段。由于行人检测系统是一个实时系统,因此系统中的检测算法应具有很高的实时性,那些使用复杂图像处理的算法便不再适用;而开放的检测场景,如道路状况不断变换、天气以及光照也随机变化,行人的服饰和姿态多变等,使得模板匹配的方法无法很好的应用于行人检测问题中。场景3D建模的方法由于前提假设的限制,其性能和速度无法达到实用的要求。如今主要的研究方法还是在行人检测中引入各种各样的分类器,主要是因为分类算法具有较好的鲁棒性,而且合理的选择训练样本和特征,结合结构合理的分类算法,可以较好地克服许多不利条件,如行人多样性、场景多样性、光照环境多样性等的影响。因此,在当前情况下,分类检测是行人检测技术研究中的一种主流的方法。 常用于行人检测的分类器有:支持向量机(SVM)、各种类型的神经网络(NN)以及其他基于统计的学习分类器(如Adaboost、串联分类器)等,如表1所示。

很多类型的分类器都被用到了行人和非行人物体的区分当中。分类器的输入是从图像中提取的像素值或特征值,输出则是这个物体是否为待测物体的一个判断。很多情况下,给出的是这个物体为待测物体的概率值。分类器通常由一系列正负样本训练得来。训练之后,分类器对未知样本进行处理,通过特征向量位于决定边界的哪一边,确定该样本中是否含有待测物体。分类器的好坏主要取决于三个方面:特征、分类算法和样本,只有合理地结合这三者才能得到性能最优的分类器。

目前,这三方面都有一些进展,这为我们设计出高效的分类器提供了很好的基础。分类器性能一般从三个方面来评价,检测率高,误报率低,检测速度快。三方面相互限制,实际应用中需要找到一个平衡点。由于分类器的性能好坏是整个行人检测系统性能好坏的决定因素,所以非常有必要结合行人检测问题本身的特点来专门为其设计合理、高性能的分类器,而不是直接套用其它领域的一些现有算法。

4、研究方法

行人检测包括了行人目标的分类和行人的跟踪等方面, 涉及到计算机视觉、模式识别和人工智能领域的许多核心课题, 是一个具有挑战性的困难问题。目前, 在许多文献中提出了多种关于行人检测的方法, 常用的方法有基于运动特性的方法、基于形状信息的方法、基于行人模型的方法、立体视觉的方法、神经网络方法、小波和支持向量机的方法等。

4.1、基于形状信息的方法

由于行人探测是在车辆运动的状态下进行的, 这样会带来摄像机的运动, 从而背景图像也会相应发生变化。基于形状信息的行人检测方法回避了由于背景变化和摄像机运动带来的问题, 主要是依靠行人形状特征来识别行人, 因此基于形状的行人检测方法能识别出运动和静止的行人。

意大利帕尔玛大学的Alberto B roggi 教授在AR 2GO项目中采用一种基于外形的行人检测算法。算法首先根据行人相对于垂直轴有很强的垂直边缘对称性、尺寸和外貌比例等在图像中找到感兴趣区域, 然后提取垂直边缘, 选择具有高垂直对称性的区域。通过计算边缘的熵值去掉图像中始终一致的区域。在剩下的具有对称性的候选区域中, 寻找目标侧向和底部边界画出矩形方框, 通过包含行人头部模型匹配定位行人头部。在市区试验表明, 当视野中有完整的行人存在时能得到较好的效果, 在10~ 40m 的范围内都可以正确地进行识别, 并且可以较好地适应复杂的外界环境。

德国DaimlerO Chrysler研究中心的Gavri la开发的行人检测系统在城市交通助手UTA 中进行了试验。盖系统主要分为两步, 首先是在等级模板匹配过程中应用行人轮廓特征来有效锁定候选目标。然后在模式分类中根据丰富的亮度信息运用径向基函数来验证候选目标。

基于形状信息的行人检测方法存在两大难点: 一是行人是非刚性的,形状信息具有多样性, 算法要考虑很多基本的信息, 导致计算量增大;二是行人在行走的过程中, 由于会产生遮挡现象,这就无形中增加了基于形状信息行人检测的难度。

4.2、基于运动特性的方法

运动是探测场景图像中感兴趣区域重要信息, 基于运动特性的行人检测就是利用人体运动的周期性特性找到行人。德国DaimlerO Benz研究中心B 1Heisele的研究是基于行人与像平面平行的方向行走时腿部运动特征,从彩色序列图像中识别出行人。首先将每幅图像分割成区域图像并对象素按颜色P位置特征空间进行聚类,通过在连续图像中匹配相应的类, 并对各类进行跟踪。然后利用快速多项式分类器估计基于类形状特征的时间变化来初步选择可能属于人腿的类。最后通过时空接受域延时神经网络将属于行人腿的类进行分离。

Lipton通过计算运动区域的残余光流来分析运动实体的刚性和周期性, 非刚性的人的运动相比于刚性的车辆运动而言具有较高的平均残余光流, 同时它也呈现了周期性的运动特征, 据此可以将人区分出来。

大多数基于运动方法运用行人独有的运动节奏特征或运动模式来探测行人, 而且能在运动摄像机情况下探测到运动目标,但是应用基于运动的行人检测还有一定的局限性:(1)首先为了提取运动节奏特征要求行人脚或腿是可见的; (2)识别时需要连续几帧序列图像, 这样延误了行人的识别, 增加了处理时间;(3)不能识别静止行人。

4.3 、基于模型的方法

基于模型的行人检测方法是通过定义行人形状模型, 在图像的各个部位匹配该模型以找到目标。行人模型主要有线性模型、轮廓模型以及立体模型等。线性模型是基于人运动的实质是骨骼的运动, 因此可以将身体的各个部分以直线来模拟。美国马里兰大学的V1Philomin 等首先应用背景减除法从静止CCD获得的图像中自动分割出行人边缘轮廓, 得到行人的统计形状模型。然后建立线性点分布模型, 利用主分量分析简化维数, 找到8维变形模型空间。基于轮廓模型的跟踪是利用封闭的曲线轮廓来表达运动目标, 并且该轮廓能够自动连续地更新。例如美国明尼苏达大学的 O1Masoud利用静止的单目CCD对序列灰度图像进行行人跟踪, 主要用于在交叉路口行人跟踪控制。立体模型主要是利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节, 这种模型要求更多的计算参数和匹配过程中更大的计算量。如 K1Rohr利用通用圆柱模型来描述行人, 目的是想利用该模型来产生人的行走的三维描述。

利用轮廓模型进行跟踪有利于减少计算的复杂度, 如果开始能够合理地分开每个运动目标并实现轮廓初始化的话, 既使在有部分遮挡存在的情况下也能连续地进行跟踪, 然而初始化通常是很困难的。

4.4、小波变换和支持向量机

从20 世纪80 年代后期开始逐步发展起来的小波分析克服了傅立叶分析的不足, 具有良好的空间局部分析功能和多分辨分析功能, 并且具有良好的重构性和滤波特性。美国M1Oren介绍了可训练的目标探测方法, 用来探测静止图像中的相关人。由于人体是一个非刚性的目标, 并在尺寸、形状、颜色和纹理机构上有一定程度的可变性。

行人检测主要是基于小波模板概念,按照图像中小波相关系数子集定义目标形状的小波模板。系统首先对图像中每个特定大小的窗口以及该窗口进行一定范围的比例缩放得到的窗口进行Harr小波变换, 然后利用支持向量机检测变换的结果是否可以与小波模板匹配, 如果匹配成功则认为检测到一个行人。最近他们又结合基于样本的方法对系统做了改进, 对人体的每个组成部分进行相应的小波模板的匹配, 之后对这些分量的匹配结果进行总的匹配评价。首先将图像进行水平方向、垂直方向以及对角线方向进行Haar 小波变换, 然后扫描与行人相关的模型, 最后用支持向量机统计推理进行识别。为了避免重叠现象, 系统按照一定等级利用多个分类器分别对手臂、头部和腿进行分类。

基于小波变换和支持向量机的方法需要按不同尺度搜索整幅图像来找到行人, 这样计算量很大。为了实现对行人进行实时检测与跟踪, 需要减少小波特征, 降低支持向量机的维数。

4.5、 立体视觉

立体视觉的基本原理是从两个 (或多个) 视点观察同一景物, 以获取在不同视角下的感知图像, 通过三角测量原理计算图像像素间的视差来获取景物的三维信息。由于单目视觉不能准确的获得前方车辆的距离信息, 而且在复杂场景内由于噪音的干扰不能有效的识别行人, 而立体视觉由于能够获得图像的深度信息, 因此在行人检测领域中得到一定的应用。意大利帕尔玛大学的A1Broggi 和美国坦克及机动车辆司令部M1Del Rose 等利用立体视觉技术进行预处理在一般非结构化环境下定位行人位置。系统首先将采集到的左、右图像进行边缘提取、二值化和形态水平膨胀, 然后将左幅图像的每行与右幅图像每行进行匹配, 计算左右特征图像中相应行的相关性用来计算他们之间的偏移量。最后找到两幅图像中相应成分的偏移量, 右幅图像偏移相同偏移量与左幅图像相应的行人区域进行特征匹配, 根据垂直直方图和水平直方图确定行人区域的边界。

也有一些行人检测系统常用立体视觉来寻找感兴趣区域, 以便后续模式分类或利用立体视觉根据对称性用来验证步骤探测到的定人区域。如美国梅隆大学的Liang Zhao和E1Thorpe首先对经过图像进行拉普拉斯运算, 利用区域相关性计算视差映射图; 然后视差值可以按照不同等级进行搜寻。通过距离阈值从视差图像中排除背景目标, 然后采用形态相近算子去除噪声并平滑前景图像区域。最后将所有探测到的可能含有行人目标的方框区域输入到训练神经网络进行行人识别。

4.6、神经网络

人工神经网络在行人识别技术中的应用主要是对利用视觉信息探测到的可能含有行人区域进行分类识别。如Liang Zhao和E1Thorpe首先利用立体视觉进行目标区域分割, 然后合并和分离子目标候选图像成满足行人尺寸和形状约束的子图像, 最后将所有探测到的可能含有行人目标的方框区域输入到神经网络进行行人识别。B1Heisele将每幅图像分割成区域图像并对像素按颜色P位置特征空间进行聚类, 利用快速多项式分类器估计基于类形状特征的时间变化来初步选择可能属于人腿的类。最后通过时空接受域延时神经网络将属于行人腿的类进行分离。

5、预期目标

目的在于建立一个基于机器视觉的车载辅助驾驶系统的行人实时检测识别系统,多变的自然背景下能够准确实时的识别行人。

6、难点及存在问题

行人分类检测问题具有以下的特点:

1)由于每帧图像中的待检测区域数量庞大,而行人检测的应用对实时性要求很高,因此对分类器的检测速度要求也很高;

2)在实际场景中,行人对象和非行人对象存在严重的不均衡性,行人对象所占比例很小;

3)为了保证样本的多样性,分类器训练时使用的正负样本数量较大并且和实际情况中正负对象的比例大致相同,这样就导致正负样本在数量上的不平衡,需要针对这种不平衡数据设计高效的分类算法;

4)行人检测系统在使用过程中不能一直报虚警,因此要求分类器在检测率在可接受的前提下,误报率尽可能的低。

资料来源:网络

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180721G1JLZA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券