前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >A Texture-based Object Detection and an adaptive Model-based Classi cation

A Texture-based Object Detection and an adaptive Model-based Classi cation

作者头像
狼啸风云
发布2023-10-07 15:24:57
1460
发布2023-10-07 15:24:57
举报

摘要

 这项工作是神经信息研究所开发的车辆驾驶员辅助系统的一部分。这是一个扩展现有驾驶员辅助系统的概念。在实际生产的系列车辆中,主要使用雷达等传感器和用于检测天气状况的传感器来获取驾驶相关信息。数字图像处理的使用大大扩展了信息的频谱。本文的主要目标是检测和分类车辆环境中的障碍物,以帮助驾驶员进行驾驶行为的决策过程。图像由安装在后视镜上的CCD摄像头获取,并观察车辆前方区域。在没有任何约束的情况下,所提出的方法也适用于后视图。解决了目标检测和经典化的主要目标。目标检测基于纹理测量,并且通过匹配过程来确定目标类型。匹配质量和目标类别之间的高度非线性函数是通过神经网络实现的。

1、介绍

 图像分析的整个过程分为两个主要步骤。首先,两阶段的目标检测过程确定图像中的一组假设。在这方面,显著性控制机制分析图像强度值分布(纹理)的信息内容,然后在由近似的相机几何形状给出的有损约束下执行一般的障碍物模型匹配,以导致耗尽的图像数据被限制到可靠的图像区域。这样做是为了通过缩放和平移空间的限制来提高计算速度。详细地说,通过从C.Shannon引入的信息理论推导出的局部图像熵的计算来感知局部图像信息内容。通过模型匹配来检测图像中目标假设的位置,以确保图像搜索空间的进一步限制。由于为了结合图像坐标与世界坐标的透视关系来提取诸如展开焦点之类的参数而精确地确定车辆的实际倾斜和平移角度的硬任务和软件昂贵的任务,对相机设置的粗略猜测足以使我们的应用提供可靠的结果。其次,通过学习分类器实现目标识别过程。第一步,目标检测,提供随时间稳定和相关的感兴趣区域(ROI)。这些必须由分类器使用基于模型的方法在规模和翻译空间中同时受到限制来验证或忽略。特别是轮廓特征(局部方向编码)为模型设计提供了很高的灵活性。为了确保最可靠的对象识别,建立了一个学习分类器。使用一组用于不同车辆的模型(原型)。基于Hausdor距离的相关方法和已经学会将匹配质量投影到对象类的神经网络发现了给定对象假设和数据库原型之间的最佳匹配。实际上,只有轿车和卡车的两种不同的原始和通用车型被包括在内,以开始分类。摩托车检测的扩展仍在研究中。然后,分类器的学习过程基于模型特征的扩展和自适应,从这个通用数据基础开始,到图像中的实际车辆特征配置。随着时间的推移,模型的尺度估计是由神经信息研究所开发的目标跟踪器给出的。这种相互作用确保了模型特征分布中的高估计精度。通过在一种树型组织中添加适应的模型来实现原型和ROI的快速逻辑匹配,从而构建这样一个数据库的扩展结构的分析仍在进行中。

2、基于纹理的目标检测

 图像处理中的主要问题是找到针对特定问题的解决方案的相关信息。在驾驶员辅助的情况下,必须检测障碍物,以确定例如规划、引导和稳定车辆及其路线的自由驾驶空间。由于计算时间和能力有限,有必要尽早关注可能的假设,以应对实时处理的高要求。局部图像纹理或局部图像结构的特征将后续处理的注意力集中在图像中的一些不同区域。这确保了翻译空间的限制。缩放空间受到基于模型的方法(模板匹配)的限制,该方法使用相机几何结构来调整模型的缩放。

A、局部图像熵与共生矩阵

 基于C.Shannon提出的信息论,确定了图像的局部信息含量。熵作为预期信息的衡量标准,衡量感兴趣区域的注意力数量。该图像可以被认为是用于通信的信息。例如,仅包含一个强度值的图像部分可以这样解释,即观看者在没有任何进一步知识的情况下只能从该图像区域提取低信息。提取图像部分的信息的能力可以用于实现显著性控制。必须建立对图像信号的信息内容的估计。图像区域的内容越不确定,该部分给出的信息就越多,必须进行详细处理。这种不确定性可以通过熵的度量来估计。或者,也可以使用基于共生矩阵的纹理测量,该矩阵使用专门为轿车和卡车(几何形状)的物体检测设计的测量。但是由于二阶统计量的计算,计算时间将显著增加。

 熵也可以被解释为信息内容的平均值,这是C.Shannon[1]在其初始理论中使用的。熵是由

确定的,其中

是概率分布。

H(X)
H(X)

量是一个系统的不确定性或无序性的度量。类似地,它确定了关于信号的信息内容的不确定性。自主操作系统感知到的自然环境的强烈图像是对系统的视觉信息。根据系统的不同,必须对该信息进行解码、转换和减少,以便建立系统的必要行为。在该应用中,熵测量信息,从而说明为了理解或描述强度信号而对图像区域进行后续图像处理的必要性。只有熵的高不确定性区域才应该进一步处理。目标是详细指定数据,以便实现高效的图像处理,例如,禁止对图像进行完整的初始搜索。

 对于图像像素,选择小的居中窗口,其中基于区域的强度值分布

p(x_k)
p(x_k)

(直方图)来计算熵。这种方法的一个优点是绝对强度值的独立性。熵的度量估计了该区域的结构或纹理的数量。

 或者,众所周知的纹理估计措施被纳入显著性控制。详细地说,平移空间中的限制措施是根据共现矩阵计算的。测量了在预定义的几何和强度约束下像素对共现的概率。这些约束是由两个图像点的强度比和空间关系(角度和距离)决定的。共现矩阵的定义如下。在大小为

M \times N
M \times N

且具有最大数量的不同灰度值

Q
Q

的图像窗口I中,在给定距离

d
d

内的参数角度

Q
Q

下计算共现矩阵

P
P

,如下所示

 纹理特征的计算在大多数应用中在四个方向(

\alpha = =0, 45, 90, 135
\alpha = =0, 45, 90, 135

)和不同距离

d=1,2
d=1,2

下执行

 旋转不变性是通过四个方向的矩阵的累加而获得的。通过计算不同距离上的矩阵来减少缩放方差的量。Haralick、Shunmugan和Dinstein提出了14种不同的统计特征,这些特征可以从共现矩阵中获得。对于汽车和卡车等几何结构的典型纹理,已经发现14种测量中的4种最适合所需的物体检测。详细地说,根据不同角度和不同距离的共生矩阵计算的能量、对比度、熵和相关度量被组合起来检测这些纹理。如图II-A所示,基于共现的方法的结果比熵测量更准确。这是由于计算二阶统计量(两点相关性)而不是直方图。但是,计算时间的增加是要付出的代价。在这种应用中,主要使用熵测度,因为一般模型匹配的下一个过程能够处理由更草率的熵测度产生的噪声。

B、投影几何

 在通过纹理分析限制平移空间之后,相机几何结构被用来在有损约束下限制尺度空间,以便不放松任何假设。由于确定图像到世界坐标的投影是一项难以解决的任务,这涉及到关于车辆内部动力学的高度知识,因此在该应用中仅使用相机参数的粗略估计。毫无疑问,对这些参数进行更准确的计算将提高应用程序的性能,但由于只关心尺度空间中的限制,而不是精确的尺度确定,因此近似是足够可行的。因此,由于相机参数(内部和外部)不可用,它们通过视觉算法估计或近似一次。在[5]中,显示了使用作为图像采集系统基础的透视几何结构,可以根据物体在图像中的垂直位置来估计物体在相机平面中的实际尺寸。为了简单起见,假设摄像机系统的针孔模型,其中摄像机安装在高度H的车辆中,并在速度矢量的方向上平行于地面对齐。摄像机平面到地平面(

z=0
z=0

)的投影由以下方程给出:

 其中

x_f
x_f

y_f
y_f

是相机平面上的像素(单元)的宽度和高度。通常:

x_f=y_f
x_f=y_f

,因此由(1)得出如下:

 现在,对于两个点(汽车后视图的左边缘和右边缘),宽度投影由

 其中

w
w

表示物体在现实世界中的宽度,

w'
w'

表示物体在相机平面中的宽度。这意味着物体图标在图像平面上的宽度与其下边缘到光轴的垂直距离成比例。这直接类似于相机感知到的物体的大小与其到相机的距离有关的事实。因此,如果真实世界中的大小是已知的,则图标在图像平面中的垂直位置给出其大小的估计。

 该方案中的主要假设是平移表面是平面的。当这个条件成立时,光轴等于图像的消失点。消失点是通过使用车道边界和地面纹理的基于统计轮廓的算法计算的(见图II-a)[5]。此外,还必须考虑车辆的动态特性。为了避免所有这些不确定性,每个图像像素的缩放空间不限于一个精确的比例,而是限于一组可能的比例。这意味着对于图像行,最小和最大比例值由下式给出

 其中表示补偿违反假定约束的方差度量。[6]中也使用了类似的方法。

最后,翻译和尺度空间的限制使得能够有效地生成假设。在该应用中,执行基于基元模型的匹配。在第一步中,类似于梯度检测,在小窗口中提取垂直和水平纹理。对于假设位置的垂直估计,检测物体下方的阴影。为了估计水平位置,分析了垂直特定纹理。其次,与表示形状为“U”的车辆的常见下降形状的模型的匹配过程使用这些特征来确定障碍物假设。在这个过程中,较差的熵表示过滤掉的不可靠的垂直或水平纹理特征。当然,这两个特征在统计上并不独立,但结构的整体测量增强了轮廓信息的局部测量,因此只考虑最可靠的轮廓。之所以使用U形,是因为它是轿车和卡车的常见模式,由垂直和水平特征组成,以增强对假设位置的确定。对所有可靠点进行匹配。相关性较高的位置是对象实例的候选位置。为了涵盖物体尺度的巨大变化(例如,卡车比轿车宽),利用了摄像机几何结构给出的尺度公差。作为相关性度量,计算与通过模型像素的数量归一化的模型特征相匹配的图像特征的总量。此外,相关值上的阈值

确保检测到最可靠的障碍物假设。因此,该系统能够应对特征提取中的噪声或故障。匹配过程的第二个参数是U形的厚度

。通过改变模型特征的数量,可以调整对噪声的灵敏度。这意味着选择一个像素厚的U形,搜索仅限于非常精确的匹配。它变得越不清晰,搜索空间中的容忍度就越高。通过改变这两个参数,系统能够捕捉到由于照明效应、噪声等而轮廓不太均匀的物体。这增加了系统的鲁棒性,但缺点是对远距离场中的噪声更敏感。对此的解决方案可以是参数

的自适应。此外,为了应对噪声,执行检测到的ROI的短时间稳定。这确保了稳定的物体检测。

图2显示了对象检测过程的结果。除了一些不匹配之外,还会检测到所有与解决方案相关的对象。因此,必须应用分类器进行最终决策。

3、豪斯多夫距离和分类

 检测到的感兴趣区域(物体假设)可能包含场景的载体。但由于障碍物检测中的有损约束,情况并非如此。因此,应用基于知识的分类器来判断假设是否是一个载体。在下一步中,这些ROI由基于Hausdor距离的分类器进行分析。

A、豪斯多夫距离

 豪斯多夫距离是一种数学工具,可用于比较两个点集。它通过考虑两个集合在某些度量中的距离来衡量它们之间的差异。在[7]中,它已成功地用于二进制图像的比较。

 豪斯多夫距离的定义如下:给定两个有限点集

,豪斯多夫距离定义为

||\cdot||
||\cdot||

可以是任何范数(通常使用欧几里得范数)。

函数h(P, Q)和h(Q, P)被称为有向豪斯多夫距离,并且通常它们不是对称的。假设P是模型点集,Q是图像集,分别称为前向和后向或反向Hausdor距离。因此,h(P, Q)=d意味着集合P的每个点必须在Q的某个点的距离d内,并且P的至少一个点正好在距离集合Q的最近点的距离d处。

 另一个有用的定义是部分定向距离,它允许比较两个集合的部分。这将允许识别由于输入数据中的噪声而被部分遮挡或失真的对象。其思想是根据集合P中的每个点到集合Q中最近点的距离对其进行排序,并取第K个排序元素而不是最大值。因此,m个模型点中的K个(

1\leq K \leq M
1\leq K \leq M

)的距离的定义为:

  在该应用中,部分定向距离用于匹配。

B、距离变换

 为了有效地计算Hausdorff距离,使用了距离变换,该距离变换给出了从图像的任何点x到一组源点P中最近点的距离。豪斯多夫距离的定义:

如果

则定义:

 是可以通过分别计算所有

p \in P
p \in P

q \in Q
q \in Q

d(p)
d(p)

d'(q)
d'(q)

而获得的豪斯多夫距离。

的图是一个称为集合

P
P

的Voronoi曲面的曲面。图3显示了轮廓图像的示例图像和相应Voronoi表面的逆自上而下视图:表面的较亮(或较高)值对应于到轮廓点的较小距离。

换言之,一旦点集Q的距离函数已知,另一个点集P到Q的有向Hausdorff距离就只是集合P的点所指示的位置上的最大运算。由于用于渲染和z缓冲的专用图形硬件([9],也[10],[11]),集合Q的距离函式的计算可以在

O(q)
O(q)

执行。

C、分类步骤

 Hausdorff距离在本文中用于图像和模型特征的匹配过程。这些特征来自局部方向编码[12]。为了提高分类性能,水平和垂直LOC等值线被分别处理(见图4)。在分类过程中,如图5所示,计算豪斯多夫距离以测量模型和图像特征之间的相似性。首先,将模型特征与图像特征相关联,并确定它们的相似性,即前向Hausdorff距离。其次,计算后向Hausdorff距离,以确保图像特征分布不是可以为背景中的树提取的高噪声随机分布,其中模型与图像的对应性可以上升到100%。在目前的实施中,每个地区都有两种型号:一种用于轿车,一种用于卡车。使用了两种不同的模型生成方法。第一个是手工设计的。对于第二个模型,使用大约50种典型类型的汽车和卡车,通过统计组合算法计算了轿车和卡车的来源模型。也就是说,计算特征的最可能分布。每个模型在区域内平移和缩放,并计算其正向Hausdorff距离的最小值。这产生了模型最多适合图像这一部分的位置,然后反向距离必须验证这种匹配。对于最终的对象分类,选择了一个神经网络(多层感知器)来评估两个模型的匹配值到对象类别的高度非线性投影。该分类仅限于识别汽车、卡车或公共汽车。神经网络的输入向量是根据前向和后向Hausdorff距离及其相应的模型大小建立的,输出是轿车、卡车和背景的图像类别。该网络由1500个不同尺寸和视角的样本组成,包括700辆轿车、500辆卡车和300种图像背景。

 D、模型适配

 模型和对象假设之间的匹配质量一方面随着图像中的噪声量而变化,另一方面,模型被设计为最通用的。为了增强这两种影响,开发了两种方法。为了稳定图像特征并抑制噪声,进行图像特征随时间的累积。对于每个轮廓图像,计算所有特征的平均值,并且只允许最可靠的特征用于进一步处理。因此,主要的问题是运动的观察者分析前方运动车辆的事实。因此,利用对象跟踪算法[13]来关联平移和缩放空间中的图像特征,以随着时间的推移获得坚实而明确的描述。基于这些稳定的特征,开发了模型的自适应方案,以创建实际跟踪对象的最相似的描述。适应过程包括四个步骤。首先,基于最佳匹配计算实际三个离散不同尺度(上、下、相等)的模型变形。其次,通过用于重新缩放模型的目标跟踪算法给出了尺度估计。在第三个新的可靠图像中,将特征点添加到实际模型中,最后进行模型点到图像点的局部位移(移位)。这四个步骤确保了原型模型与稳定的图像特征星座的确切近似。但为了不了解背景,检查实际模型与原型模型的相似性(豪斯多夫距离),以便在必要时进行重新初始化。对变形的适应是通过匹配过程完成的,其中一次检查三个实际模型尺寸。目标跟踪器的尺度变化估计确保了尺度上的稳定自适应。新特征点的添加是基于之前描述的时间稳定的图像特征。只有高度稳定的特性才会被考虑在内。如果达到统计上足够数量的模型点,则停止添加过程。局部偏移使模型特征与稳定的图像特征一致。图6描述了轿车使用所有四种自适应机制随时间变化的自适应过程。

四、结果

 所提出的方法结合了两个主要方面:基于数据的(纹理)方法和基于模型的(豪斯多夫)方法。还利用了来自环境的几何约束。对象检测过程提供一组对象假设,这些对象假设被馈送到后续的跟踪和分类任务以建立环境设置的表示。随着时间的推移,会记录对象的数量、轨迹和类别。下一步要解决的是基于该信息的场景解释,以便执行所有与驾驶相关的任务。物体检测过程足够稳定和准确,可以将所有原始图像强度信息收集到一组假设中。Hausdorff分类器进一步有助于更准确地指定对象边界,这反过来又导致环境随时间的变化。车型自适应解决了拥有多种车型和形状的问题。在实时约束下,结构化学习模型数据库的组织是必要的,也是我们未来工作的一部分。在图像的噪声和小部分中可能出现的最终分类的缺失必须通过随时间的稳定来消除。此外,必须将道路的几何形状纳入该方法中,以拒绝轨迹不可靠或不位于道路上的物体。尽管如此,组合方法能够应对大多数可能的车辆布置,并且分类的性能令人满意,因此足够稳定,可以建立环境代表性。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、基于纹理的目标检测
    • A、局部图像熵与共生矩阵
      • B、投影几何
      • 3、豪斯多夫距离和分类
        • A、豪斯多夫距离
          • B、距离变换
            • C、分类步骤
              •  D、模型适配
              • 四、结果
              相关产品与服务
              图像搜索
              图像搜索(Image Search)基于腾讯云的图像解决方案,集成了图像检索、超细粒度元素挖掘和图像匹配等技术,通过以图搜图的方式在用户自建图片库中快速检索出与输入图片相同或相似的图片集合,可应用于图片版权保护、电商侵权审核、相似素材查询、同款商品搜索与推荐等场景。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档