【深度学习】自动驾驶:使用深度学习预测汽车的转向角度

近年来,特别是在10年前Darpa挑战赛成功之后,全自动驾驶汽车的开发速度大大加快。自动驾驶汽车由许多部件组成,其中最关键的部件是驱动它的传感器和人工智能软件。此外,随着计算能力的增加,我们现在能够训练复杂的和深层的神经网络,该神经网络能够学习关键的细节,并且成为汽车的大脑,了解汽车的环境,以便做出下一个决定。

在这篇文章中,我们将讨论如何训练一个深度学习模型来预测方向盘转角,并帮助虚拟汽车在模拟器中自动驾驶。该模型使用Keras(https://keras.io/)创建,使用Tensorflow(https://www.tensorflow.org/)作为后端。

项目设置

对于该项目,我们提供了一个以Unity为基础的模拟器,它有两种模式:

  • 训练模式:我们手动驾驶汽车,收集数据;
  • 自动模式:汽车以从收集的数据中训练出来的模型为基础进行自驾。

数据日志保存在csv文件中,包含了图像路径,以及方向盘转角、油门和速度。我们只关心这个项目的方向盘转角和图像。

如下图所示,模拟器包含两条轨道。右边的轨道(轨道2)比轨道1难度更大,因为它包含斜坡和急转弯。

这个项目实际上是受NVIDIA研究员的论文“自动驾驶汽车的端到端学习”(https://arxiv.org/abs/1604.07316)的启发,这篇论文通过训练一个卷积神经网络使汽车自动驾驶,根据转向角度数据和三个相机(左、中、右)拍摄的图像,预测方向盘转角。经过训练的模型只用中央相机就能够精确地驾驶汽车。下图显示了创建这样一个高效模型的过程。

与英伟达正在做的真实的自动驾驶不同,我们的汽车在模拟器中驾驶。不管怎样,同样的原则也应该适用。我们在这方面得到了进一步的支持,这要归功于最近对“仿真在如何在Waymo(https://www.theatlantic.com/technology/archive/2017/08/inside-waymos-secret-testing-and-simulation-facilities/537648/)等公司的自动驾驶技术的发展中发挥关键作用”的相关报道。

数据集

我们使用了4个数据集:

  • Udacity在轨道1上的数据集;
  • 在轨道1上手动创建的数据集(我们将其命名为标准数据集);
  • 另一个在轨道1上手动创建的数据集,这个数据集记录了我们开车接近边界的数据,然后重新训练这个模型如何避免超出范围——在现实世界中,这将被称为鲁莽或酒后驾驶;
  • 在轨道2上手动创建的数据集。

请注意,在所有手动创建的数据集中,我们在两个方向上驱动,以帮助我们的模型通用化。

数据集探索

然而,在分析了我们的数据集所捕获的转向角后,我们很快意识到一个问题:我们的数据非常不平衡,有大量的方向盘角度数据是中性的(即0)。这意味着,除非我们采取矫正措施,否则我们的模型将会倾向于直线行驶。

轨道2上的数据显示了许多急剧变化的变化,这正是我们所期望的。但即使是在这种情况下,模型仍倾向于直线行驶。

数据集分割

最后,我们决定创建一个集成训练数据集,该数据集由Udacity数据集、恢复数据集和轨道2的数据集组成。我们决定使用来自轨道1的标准数据集作为验证集。

frames= [recovery_csv, udacity_csv, track2_csv]
ensemble_csv= pd.concat(frames)
validation_csv= standard_csv

这帮助我们从55K的训练图像和潜在的44K的验证图像开始。

数据增长

我们有很多数据点,但不幸的是,大多数的数据显示,我们的汽车以一个中性的方向盘转角行驶,我们的汽车将倾向于直线行驶。下面的例子展示了我们的第一个模型,该模型没有平衡训练数据集:

此外,在轨道上也有阴影,可能会使模型陷入混乱。该模型还需要学会正确驾驶,无论汽车在道路的左边或右边。因此,我们必须找到一种方法来人为地增加和改变我们的图像和转向角度。为此,我们致力于数据增长技术。

摄像机和转向角校准

首先,我们添加了一个转向角校准,以抵消左右相机捕捉到的图像:

  • 对于左边的相机,我们想让汽车转向右边(正偏移);
  • 对于右边的的相机,我们希望汽车转向左边(负偏移)。
st_angle_names= ["Center","Left","Right"]
st_angle_calibrations= [0,0.25,-0.25]

上面的数值是根据经验选择的。

图像左右反转

因为我们想让我们的汽车在道路上的任何位置,都能自主驾驶,所以我们对图像的比例进行左右反转,并且自然地逆转原始的转向角度。

def fliph_image(img):
    """
    Returns a horizontally flipped image
    """
    return cv2.flip(img,1)

变暗的图像

由于阴影或其他原因,轨道的某些部分变暗,我们还通过将所有RGB颜色通道乘以一个从范围中随机选取的标量,以使我们的一部分图像变暗。

def change_image_brightness_rgb(img, s_low=0.2, s_high=0.75):
    """
    Changes the image brightness by multiplying all RGB values by the same scalacar in [s_low, s_high).
    Returns the brightness adjusted image in RGB format.
    """
    img= img.astype(np.float32)
    s= np.random.uniform(s_low, s_high)
    img[:,:,:]*= s
    np.clip(img,0,255)
    return  img.astype(np.uint8)

随机阴影

因为偶尔会有阴影覆盖的轨迹,我们也必须训练我们的模型来识别它们。

def add_random_shadow(img, w_low=0.6, w_high=0.85):
    """
    Overlays supplied image with a random shadow polygon
    The weight range (i.e. darkness) of the shadow can be configured via the interval [w_low, w_high)
    """
    cols, rows= (img.shape[0], img.shape[1])
    top_y= np.random.random_sample()* rows
    bottom_y= np.random.random_sample()* rows
    bottom_y_right= bottom_y+ np.random.random_sample()* (rows- bottom_y)
    top_y_right= top_y+ np.random.random_sample()* (rows- top_y)
    if np.random.random_sample() <= 0.5:
        bottom_y_right= bottom_y- np.random.random_sample()* (bottom_y)
        top_y_right= top_y- np.random.random_sample()* (top_y)
    poly= np.asarray([[ [top_y,0], [bottom_y, cols], [bottom_y_right, cols], [top_y_right,0]]], dtype=np.int32)
    mask_weight= np.random.uniform(w_low, w_high)
    origin_weight= 1 - mask_weight
    mask= np.copy(img).astype(np.int32)
    cv2.fillPoly(mask, poly, (0,0,0))
    #masked_image = cv2.bitwise_and(img, mask)
    return cv2.addWeighted(img.astype(np.int32), origin_weight, mask, mask_weight,0).astype(np.uint8)

左/右/上/下移动图像

为了对抗大量的中性角度,并为数据集提供更多的多样性,我们对图像进行随机移动,并在每个像素横向移动的方向上添加一个给定的偏移量。在我们的案例中,我们根据经验决定在每个像素向左或向右移动时增加(或减去)0.0035。向上/向下移动图像会使模型相信它在向上/向下倾斜。从实验中我们可以知道,这些侧向位移可能是使汽车正常驾驶所需的最重要的增长。

# Read more about it here: http://docs.opencv.org/3.0-beta/doc/py_tutorials/py_imgproc/py_geometric_transformations/py_geometric_transformations.html
def translate_image(img, st_angle, low_x_range, high_x_range, low_y_range, high_y_range, delta_st_angle_per_px):
    """
    Shifts the image right, left, up or down.
    When performing a lateral shift, a delta proportional to the pixel shifts is added to the current steering angle
    """
    rows, cols= (img.shape[0], img.shape[1])
    translation_x= np.random.randint(low_x_range, high_x_range)
    translation_y= np.random.randint(low_y_range, high_y_range)

    st_angle+= translation_x* delta_st_angle_per_px
    translation_matrix= np.float32([[1,0, translation_x],[0,1, translation_y]])
    img= cv2.warpAffine(img, translation_matrix, (cols, rows))

    return img, st_angle

图像增长管道

我们的图像增长函数很简单:每个提供的图像都经过一系列的增长,每一个发生概率p在0到1之间的。所有增长图像的代码都被委托给了上面所示的适当的增长函数。

def augment_image(img, st_angle, p=1.0):
    """
    Augment a given image, by applying a series of transformations, with a probability p.
    The steering angle may also be modified.
    Returns the tuple (augmented_image, new_steering_angle)
    """
    aug_img= img

    if np.random.random_sample() <= p:
        aug_img= fliph_image(aug_img)
        st_angle= -st_angle

    if np.random.random_sample() <= p:
        aug_img= change_image_brightness_rgb(aug_img)

    if np.random.random_sample() <= p:
        aug_img= add_random_shadow(aug_img, w_low=0.45)

    if np.random.random_sample() <= p:
        aug_img, st_angle= translate_image(aug_img, st_angle,-60,61,-20,21,0.35/100.0)

    return aug_img, st_angle

Keras图像生成器

由于我们在训练模型的过程中产生了新的和增长的图像,所以我们创建了一个kera生成器来在每个批处理中生成新的图像。

def generate_images(df, target_dimensions, img_types, st_column, st_angle_calibrations, batch_size=100, shuffle=True,
                    data_aug_pct=0.8, aug_likelihood=0.5, st_angle_threshold=0.05, neutral_drop_pct=0.25):
    """
    Generates images whose paths and steering angle are stored in the supplied dataframe object df
    Returns the tuple (batch,steering_angles)
    """
    # e.g. 160x320x3 for target_dimensions
    batch= np.zeros((batch_size, target_dimensions[0],  target_dimensions[1],  target_dimensions[2]), dtype=np.float32)
    steering_angles= np.zeros(batch_size)
    df_len= len(df)

    while True:
        k= 0
        while k < batch_size:           
            idx= np.random.randint(0, df_len)      
            for img_t, st_calibin zip(img_types, st_angle_calibrations):
                if k >= batch_size:
                    break

                row= df.iloc[idx]
                st_angle= row[st_column]           

                # Drop neutral-ish steering angle images with some probability
                if abs(st_angle) < st_angle_thresholdand np.random.random_sample() <= neutral_drop_pct :
                    continue

                st_angle+= st_calib                                                               
                img_type_path= row[img_t] 
                img= read_img(img_type_path)               

                # Resize image

                img, st_angle= augment_image(img, st_angle, p=aug_likelihood)if np.random.random_sample() <= data_aug_pctelse (img, st_angle)
                batch[k]= img
                steering_angles[k]= st_angle
                k+= 1

        yield batch, np.clip(steering_angles,-1,1)

请注意,我们有能力降低一定比例的中性角,并保持(即不增加)每批图像的比例。

下面展示了一小部分批量的增长图像:

此外,这些增强图像的转向角度的直方图显示了更多的平衡。

模型

我们最初尝试了VGG架构的一种变体,它的层次较低,并且没有转移学习,但它能得到令人满意的结果。最终,我们选定了NVIDIA论文中使用的架构,因为它能得到最好的结果。

模型调整

我们在模型上添加了一些细微的调整:

  • 我们裁剪了图像的顶部,以排除水平线(它在直接决定转向角时并不起作用);
  • 在模型中,我们将图像大小调整为66×200,作为早期的层,以利用GPU的优势;
  • 我们在每一个激活函数后应用BatchNormalization (https://www.quora.com/Why-does-batch-normalization-help)来加快收敛;
  • 第二个致密层的输出大小为200,而不是100。

模型架构

该模型的完整架构如下:

  • 输入图像为160×320(高度x宽度格式);
  • 图像顶部垂直裁剪,剪掉一半高度(80像素),形成80×320图像;
  • 裁剪图像是标准化的,以确保像素分布的均值为0;
  • 使用Tensorflow的image.resize_images(https://www.tensorflow.org/api_docs/python/tf/image/resize_images)将裁剪的图像调整到66×200;
  • 我们应用了一系列的3个5×5卷积层,使用2×2的步幅。每一个卷积层后面都有一个BatchNormalization操作来改善收敛性。当我们深入网络的时候,每一层的深度分别是24、36和48;
  • 我们应用2个连续的3×3卷积层,深度为64。每一个卷积层后紧接着是一个BatchNormalization操作;
  • 我们在这个阶段将平面化输入,然后进入完全连通的阶段;
  • 我们采用一系列完全连通的层,逐渐减小尺寸:1164、200、50和10;
  • 输出层的大小是1,因为我们只预测一个变量:方向盘转角。

激活和正规化

在所有层中使用的激活函数,除了最后一个,都是ReLU(https://stats.stackexchange.com/questions/226923/why-do-we-use-relu-in-neural-networks-and-how-do-we-use-it)。我们也尝试了ELU,但使用ReLU + BatchNormalization能得到更好的结果。我们利用输出层的均方误差激活,因为这是一个回归问题,而不是一个分类问题。

如上所述,我们使用了BatchNormalization 来加速收敛。我们确实尝试了某种程度的Dropout(https://www.quora.com/What-does-a-dropout-in-neural-networks-mean),但没有发现任何明显的差异。我们相信,我们在每一批中都产生了新的图像,并且丢弃了一些中性角度的图像,这将有助于减少过度拟合。此外,我们没有将任何MaxPool(http://cs231n.github.io/convolutional-networks/#pool)操作应用到我们的NVIDIA网络(尽管我们尝试用VGG启发了一个),因为它需要架构上的重大更改,因为我们更早地减少了维度。此外,我们没有时间用L2规范化进行试验,但计划在未来尝试它。

训练和结果

我们使用Adam(https://www.quora.com/Can-you-explain-basic-intuition-behind-ADAM-a-method-for-stochastic-optimization)作为优化器来训练模型,学习率为0.001。经过多次调整参数和多模型试验之后,我们最终得到了一能够让我们的虚拟汽车在两个轨道上自动驾驶的能力。

我们可以看到,汽车如何设法沿着轨道2的陡峭的斜坡向下行驶。

我们还展示了前置摄像头在轨道2上自动驾驶时看到的情况。我们可以看到汽车是如何坚持在车道上而不是在中间行驶的,因为我们在数据收集阶段,汽车只在道路的一侧行驶。这表明模型确实学会了保持在自己的车道内。

视频

更重要的是,我甚至为你制作了一段视频剪辑,把Grid作为背景音乐。(https://www.youtube.com/watch?v=0lxHpVUJ5U0&feature=youtu.be)

结论

我们已经证明,通过深度神经网络和大量的数据增长技术建立一个模型,可以可靠地预测汽车的方向盘转角。虽然我们取得了令人鼓舞的结果,但我们希望未来可以探索以下几点:

  • 在模型中考虑速度和油门;
  • 让汽车的时速超过15 – 20英里;
  • 通过迁移学习的实验模型以VGG /ResNets/ Inception为基础;
  • 使用循环神经网络,如论文中使用Udacity数据集;
  • 通过ai 阅读论文“驾驶模拟器”(https://arxiv.org/abs/1608.01230),并尝试实现他们的模型;
  • 使用强化学习进行试验。

我们可以探索许多领域,以进一步推动这个项目,取得更令人信服的结果。这个项目最重要的就是数据:如果没有这些图像和转向角,以及它们潜在的无限扩展,我们就无法建立足够稳健的模型。

这个项目是迄今为止最困难的项目,通过该项目能够获得更多的实践经验,包括超参数调整、数据增强和其他重要概念之间的数据集平衡。也可以加深对神经网络架构的理解。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

十个生成模型(GANs)的最佳案例和原理 | 代码+论文

王小新 编译 原文作者:Sumeet Agrawal 量子位 出品 | 公众号 QbitAI 生成对抗网络(GANs)是一种能“教会”计算机胜任人类工作的有趣方...

4376
来自专栏AI科技评论

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者介...

703
来自专栏华章科技

大数据时代的网络分析,如何全盘挖掘大数据?

我们生活在一个互联实体(entities)构成的复杂世界中。人类涉足的所有领域,从生物学到医学、经济学和气候科学,都充满了大规模数据集。

756
来自专栏新智元

【LeCun论战Yoav】自然语言GAN惹争议:深度学习远离NLP?

【新智元导读】一篇在 ArXiv 上非常火的文章《自然语言对抗生成》引发了 Yann LeCun 和 Yoav Goldberg 的激烈论战。Yoav Gold...

35112
来自专栏新智元

【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT 全文翻译及下载)

Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的...

3926
来自专栏机器之心

深度 | 解读R-Net:微软「超越人类」的阅读理解人工智能

2817
来自专栏企鹅号快讯

Anti-Spoofing之人脸活体检测

每周精选 Algorithm System Anti-Spoofing 之人脸活体检测 在小编之前的文章系列中曾介绍过的对抗样本攻击,是目前Deep Learn...

8776
来自专栏大数据文摘

【重磅】Facebook AI 负责人:深度学习技术趋势报告(150 PPT下载)

1515
来自专栏专知

【论文读书笔记】自动驾驶新思路:现实域到虚拟域统一的无监督方法

【导读】近日,针对无人驾驶中端到端模型缺乏训练数据以及训练数据噪声大、模型难解释等问题,来自卡内基梅隆大学、Petuum公司的Eric P. Xing等学者发表...

3063
来自专栏新智元

斯坦福新深度学习系统 NoScope:视频对象检测快1000倍

【新智元导读】 斯坦福大学的新研究构建一个名为 NoScope 的深度学习视频对象检测系统,利用视频的局部性对 CNN 模型进行优化,相比当前性能最好的 YOL...

2775

扫描关注云+社区