专栏首页人人都是极客无人驾驶技术课——感知(1)

无人驾驶技术课——感知(1)

在感知部分的课程中,我们将首先介绍计算机视觉的基本应用领域;再进一步了解机器学习、神经网络和卷积神经网络的基础知识;随后我们将讨论感知模块在无人车中的具体任务;最后了解 Apollo 感知模块的体系结构和传感器融合的相关内容。

要教会汽车自动驾驶,首先要教会它感知周围的坏境。在开车时,人类可以用眼睛来判断路况和往来车辆,汽车虽然没有像人类一样的眼睛,但它可以借助多种传感器来实现对周围环境的感知,在实现感知的过程中,我们需要使用大量的计算机视觉技术。

本节课,我们将学习图像分类模型、摄像头图像和激光雷达图像的工作原理,初步了解无人车感知领域的计算机视觉技术。

图像分类模型

计算机视觉是指计算机看待和理解世界的方式。作为人类,我们可以很轻松地识别图像中物体和它们之间的关系,但是对计算机而言,图像只是红色、绿色、蓝色值的集合,如何将这些有颜色的值解读成有意义的图像内容对计算机而言并不容易。

我们可以通过图像分类模型来表现计算机视觉的一般数据流程。在这之前,我们需要先了解图像分类模型在无人车四个感知世界核心任务中的位置:

检测 找出物体在环境中的位置;

分类 明确对象是什么;

跟踪 随时间的推移观察车辆、行人等目标的移动;

语义分割 将图像中的每个像素和语义进行匹配,分辨出道路、汽车、天空等。

图像分类模型是一种将图像作为输出并输出标识该图像的标签或“类别”的算法。例如:交通标志分类器能查看相关标志并识别它是停车标志、让路标志、限速标志。分类器甚至可以识别行为,如一个人是在走路还是在跑步 。

分类模型有很多种,但他们的工作步骤都是类似的:

  1. 计算机接受摄像头等成像设备的输入。这通常被捕获为图像或一系列图像;
  2. 对每一个图像进行预处理。预处理是对每一个图像进行标准化处理,常见的预处理步骤包括调整图像大小或旋转图像,或将图像从一个色彩空间转换为另一个色彩空间,例如全彩到灰度,预处理可以帮助模型更快地处理和学习图像;
  3. 提取特征。特征有助于计算机理解图像。例如将汽车与自行车区别开来的一些特征——汽车通常有更大的形状,并且有四个轮子而不是两个,所以形状和车轮是汽车的显著特征;
  4. 将这些特征输入到分类模型中。这个步骤使用特征来选择图像类别,例如分类器可以确定图像是否包含汽车、自行车、行人或者根本不包含这样的对象。

为了完成这些视觉任务,需要建立模型。模型是帮助计算机了解图像内容的工具,在计算机视觉中,无论经过训练的模型执行什么任务,它们通常在开始时将摄像头图像作为输入。

摄像头图像

摄像头图像是最常见的计算机视觉数据。以计算机的视角来看,图像只是二维网格,也被称为矩阵。矩阵的每个单元格都包含一个值,数字图像全部由像素组成,其中包含非常小的颜色或强度单位,图像中的每个像素都只是一个数值,这些值构成了我们的图像矩阵。

我们可以改变这些像素值,如通过为每个像素值添加一个标量整数来改变图像亮度等。这些数字网格是许多图像处理技术的基础,多数颜色和形状转换都只是通过对图像进行数学运算以及逐一对像素进行更改来完成的。

图示为彩色图像被构建为值的三维立方体,每个立方体都有高度、宽度和深度,深度为颜色通道的数量,大多数彩色图像以三种颜色组合表示:红色,绿色、蓝色,这些图像被称为 RGB 图像,RGB 图像的深度为3,因此 RGB 图像可用一个薄盒子表示,将深度视为三层叠加的二维色层很有帮助,一层是红色,一层为绿色,一层为蓝色,它们构建了一个完整的色彩图像。

激光雷达图像

感知扩展到传感器而不仅仅是摄像头,激光雷达传感器创建环境的点云表征,提供了难以通过摄像头图像获得的信息,如距离和高度。激光雷达传感器使用光线,尤其是激光来测量与环境中反射该光线的物体之间的距离。

激光雷达发射激光脉冲并测量物体,计算每个激光脉冲反射回传感器所花费的时间,反射需要的时间越长,物体距离传感器越远。激光雷达正是通过这种方式来构建世界的视觉表征。

以激光雷达的视角感知周围环境

如图所示,激光雷达通过发射激光脉冲来检测汽车周围的环境,蓝色表示反射激光脉冲的物体,中间的黑色区域是无人车本身占据的空间。由于激光雷达测量激光束反射,它收集的数据形成一团点或“点云”,点云中的每个点代表反射回传感器的激光束,这些点云可以告诉我们关于物体的许多信息,例如其形状和表面纹理。

激光雷达视角:红色表示行人,绿色表示车辆

通过对点进行聚类的分析,这些数据提供了足够的对象检测、跟踪或分类信息。在这里你可以看到在点云上执行的检测和分类结果,红点为行人,绿点表示其他车辆。

正如你所看到的那样,激光雷达数据提供了用于构建世界视觉表征的足够空间信息。计算机视觉技术不仅可以使用摄像头图像进行对象分类,还可以使用点云和其他类型的空间相关数据进行对象分类。

本节课,我们对计算机视觉技术有了初步的了解,下节课我们将进一步了解机器学习、神经网络和卷积神经网络的相关内容,敬请期待。

【转自Apollo阿波罗智能驾驶】

本文分享自微信公众号 - 人人都是极客(rrgeek)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 算法复杂度O(1),O(n),O(logn),O(nlogn)的含义

    接下来几篇文章会介绍linux内核是如何调度进程的,在学习内核进程调度之前有必要搞懂这些准备知识!

    刘盼
  • Linux 设备树(DTS)的深入理解

    上一节说过设备树的出现是为了解决内核中大量的板级文件代码,通过 DTS 可以像应用程序里的 XML 语言一样很方便的对硬件信息进行配置。关于设备树的出现其实在 ...

    刘盼
  • 无人驾驶技术课——感知(3)

    在前面的课程里,我们提到了感知模块内的计算机视觉和深度学习,这节课我们来讲一讲感知任务中的分类、跟踪、语义分割和 Apollo 感知相关的内容。

    刘盼
  • 图像处理之灰度模糊图像与彩色清晰图像的变换

      针对模糊图像的处理,个人觉得主要分两条路,一种是自我激发型,另外一种属于外部学习型。接下来我们一起学习这两条路的具体方式。 第一种 自我激发型   基于图像...

    深度学习思考者
  • 论文解析 | Google如何用CNN检查乳腺癌?

    图片来源:New Scientist 翻译 | ziqi zhang 编辑 | Donna 【AI科技大本营导读】前两周,我们分别为大家放送了Luke Oakd...

    AI科技大本营
  • 【风格化+GAN】感知对抗网络 PAN,一个框架搞定多种图像转换

    【新智元导读】pix2pix 又有更新:悉尼大学的 Chaoyue Wang 等人受生成对抗网络(GAN)启发,在已有的感知损失基础上,提出了感知对抗网络(Pe...

    新智元
  • 2017年最后一篇推送,仍然与技术有关盘点深度学习论文年度之“最”

    今年有很多的学术论文发表,以下是小编觉得能够深刻影响到自己的几篇,为大家推荐。对于每一篇文章,都阐述了论文的“目标”,简要总结了相关工作,并解释了推荐的原因。 ...

    企鹅号小编
  • 【专栏】图像分析那些事︱AI来了

    本文简单介绍一下成像和图像分析的基本内容,希望对有兴趣解决图像类问题的同学有所帮助。

    腾讯云AI中心
  • 数字图像处理基本知识

    数字图像,又称为数码图像或数位图像,是二维图像用有限数字数值像素的表示。数字图像是由模拟图像数字化得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处...

    小白学视觉
  • 一起学python计算机视觉 | 加群一起学习

    本书是计算机视觉编程的权威实践指南,通过Python语言讲解了基础理论与算法,并通过大量示例细致分析了对象识别、基于内容的图像搜索、光学字符识别、光流法、跟踪、...

    AI算法与图像处理

扫码关注云+社区

领取腾讯云代金券