雷锋字幕组获MIT课程团队授权翻译自动驾驶课程,视频链接:http://www.mooc.ai/course/483/info 我们为你整理了每一个 Lecture 的课程笔记,提炼出每一讲的要点精华,推荐结合课程笔记观看视频内容,学习效果更佳。 原标题 MIT 6.S094: Deep Learning for Self-Driving Cars 2018 Lecture 4 Notes: Deep Learning for Human Sensing 作者 | Sanyam Bhutani 翻译 | 姚秀清、程倩、郭蕴哲、王祎、朱茵 整理 | 凡江
这里是 MIT 6.S094:自动驾驶汽车课程(2018)的第四课的笔记
所有的图片均来源于自于课程的幻灯片。
计算机视觉,到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。
原始感知数据:对于机器,图片是以数字形式存在。以通道 1 或通道 3 的数值数组组成的图片作为神经网络的输入,而输出则通过回归或图片分类来产生不同的类别。
我们必须谨慎的对待感知层容易和困难的假设。
人类视觉 Vs 计算机视觉
任一种类间不同类别的图像拥有各自的存储路径。路径下存有不同类别的多个范例。任务:存储一个新的图像到其对应的存储路径下。
著名数据集:
最简洁的数据集之一,包含 10 个类别,通常用于卷积神经网络。
简单的例子:
若采用这套方法,能得到 35% 的 L2 微分精度和 38% 的 L1 微分精度,比随机的图像识别方式高 10% 的精确度。
K 近邻:
我们尝试找到与 K 类别最为相似的图像并将其存入 K 类别的存储路径下,来代替匹配整个数据库的搜索方式。将 K 值设置在 1--5 之间,看不同 K 值对整个匹配和存储过程的影响。
人类级别的准确率是 95% 的准确率。
使用卷积神经网络,我们达到了 97.75% 的准确率。
卷积神经网络
CNNs 的工作效率很高,如学习大量数据和大量对象的复杂任务。
“调参空间的不变性”:
图片中左上角和右下角的物体相同,我们知道图片中有相同的特征。
卷积操作 :在这里我们使用了 3 维卷积操作代替全连接层。所以在该卷积操作中,输入和数据均为 3 维向量。
使用滑动窗口对图片进行滑动,从而对图像切片。对滑动窗口应用用同样的权重来生成输出。我们可以生成很多这样的滤波器。
每个滤波器的参数是共享的(如果某一特征在一个地方有用,则它在所有地方都有用),这使得参数缩减成为了一个很重要的工作。重复使用的特征如下:
一个例子:
卷积操作
ImageNet 跟踪研究
初始模块介绍
想法:不同大小的卷积滤波器为网络提供了不同的值,进行不同的卷积和连接。
更小的卷积核: 高分辨率的纹理信息。
更大的卷积核:更加抽象的特征信息。
结果:参数更少,表现更好。
设计灵感:通过增加网络深度,提升模型的表现性。
“残差块”可以使设计者训练深度更深的网络。
残差块:
- 重现一个简单的网络块,类似 RNNs。
- 在转化之前传递输入数据,并具有学习权重的能力。
- 每一层使用前一层的输入,原始数据和未转换的数据学习新的参数。
挤激网络:
- 通过在卷积单元的每个信道上添加一个参数的方式,网络会基于其被传入的特征自主地对信道上的权重进行调整。
- 目的:让网络学习每个独立信道上的权重。
- 注意:由于它会依据内容来选择使用的过滤器,因此这种方法适用于任何架构。
前 5 大猜想。
人类的错误率是 5.1%
于 2015 年被打破。
- 设计灵感:考虑一下什么样的假设会被网络所所制造出来,什么样的信息会被丢掉。
- 由于卷积神经网络的空间限制,它会丢弃掉复杂物体和简单物体之间的层级。
- 未来的挑战:如何设计出旋转工作的神经网络。
注意:卷积神经网络构造了一个基于卷积的像素级激活热力图。
场景理解
- 物品边界的精确提取对医学上和驾驶上都意义重大。
- 在驾驶方面,将这些信息与传感器中的信息进行整合,之后将语义知识与现实世界的三维坐标进行整合,以此来对周围环境的边界进行准确的标记。
- 对预训练好的网络 ImageNet,改变其目标。
- 使用解码器代替全连接层,通过图片升采样的方式来构造热力图。
- 为了将升采样的粒度细化提升,会跳过一些连接。
- 已被应用到驾驶环境中。
- 使用卷积操作代替池化操作大大降低了分辨率。
- 当必须得持续捕捉空间窗口时,Gridding 维护了局部高解析度的纹理。
切分的关键
ResNet-DUC 2017:
从输入到输出的过程中,卷积被依次展开。
神经光流网络
在此讨论的方法均忽略与机器人相关的时序动态。
FlowNet 2 2016:
结合了 FlowNetC 与 FlowNetS 的特性
- 将网络模型融合为一个方法。
- 对数据集事件进行排序
数据集:
任务:
博客原址
https://hackernoon.com/mit-6-s094-deep-learning-for-self-driving-cars-2018-lecture-4-notes-computer-vision-f591f14b3b99