commaai自动驾驶的改进方法

commaai的自动驾驶深度网络中,用到了两种深度网络技术,分别是VAE和GAN,

Generative Adversarial Networks (GANs) 这个我们在上面讨论过了,给出一个训练过程作为两个不同的网络的博弈:一个生成器网络(如上)和一个判别器网络尝试分类样本为来自真实分布 $p(x)$ 和模型分布 $\hat{p}(x)$. 每次判别器注意到两个分布之间的差异生成器微微调整了自己的参数,直到最后(理论上)生成器准确地重新制造真实数据分布,判别器随机猜测并不能找到差异.

Variational Autoencoders (VAEs) 让我们可以在概率图模型框架下形式化这个问题,我们会最大化数据的对数似然的下界.

变分自编码器可以执行学习和在复杂的包含隐含变量的概率图模型上进行高效地贝叶斯推断(如 DRAW 或者 Attend Infer Repeat 近期相对复杂的模型). 但是,他们生成的样本会有些模糊不清. GANs 目前生成了清楚的图像,但是因为不稳定的训练动态性很难优化

在openai的生成模型成果中对VAE和GAN分别作出了改进:

Improving GANs(code). 首先,正如上面所说 GANs 是一个非常有前景的生成式模型,因为不像其他方法,他们产生了非常干净和清晰图像,并学习可以包含关于这些纹理有价值的信息的代码. 然而,GANs 被建模成两个网络之间的博弈,保持他们的平衡很重要(且有技巧):例如,他们可能在解之间震荡或者生成器有奔溃的倾向. 在个工作中,Tim Salimans, Ian Goodfellow, Wojciech Zaremba 和其他同事已经引进了一些新的技术让 GAN 训练更加稳定. 这些技术让我们能够规模化 GANs 并获得很好的 128*128 ImageNet 样本:

Generated from DRAW model

Generated from a VAE trained with IAF

我们CIFAR-10 的样本看起来也是非常清晰的——Amazon Mechanical Turk workers可以从真实数据中以错误率 21.3% 区分这些样本(50% 的错误率代表随机猜测):

Real images (CIFAR-10)

Generated images

除了生成更好的图像外,我们引入了一种半监督学习的方法包括判别器产生额外输出来表示输入的标记. 这个方法可以让我们在 MNIST SVHN 和 CIFAR-10 上获得当前最佳结果,而不需要过多的标记样本. 在 MNIST 中,我们仅仅对每个类有 10 个标记样本并使用了一个全连接的神经网络就达到了 99.14% 的准确率——这个结果接近已知最优的使用了 6 万幅标记样本的监督学习方法的结果. 由于标记样本在应用中很难轻易获取,所以上述方法是很有前景的.

生成式对抗网络是相对新的模型(两年前提出来的)我们期望在未来出现更多的提升训练时模型的稳定性的研究成果出现.

Improving VAEs (code) 在这项工作中,Durk Kingma 和 Tim Salimans 引入了一个灵活并且计算规模化方法来提升变分推断的准确率. 尤其是,大多数 VAE 目前训练采用的暴力的近似后验分布,其中每个隐含变量是独立的. 最近的扩展工作 已经通过将每个隐含变量定义在其之前的变量的链上的条件分布解决了这个问题,但由于引入的序列依赖仍没有达到计算高效. 而核心贡献就是称为 逆自递归流 inverse autoregressive flow (IAF) 的方法,该方法允许我们并行化丰富的近似后验分布计算,让这些后验可能任意的灵活计算.

我们在下面的图中展示了一些 32*32 的图像样本. 前一幅是来自 DRAW 模型的早期样本(初级 VAE 样本看起来更差和模糊). DRAW 模型是一年前发表的,这里也可以感受到训练生成式模型的进展迅猛.

Generated from DRAW model

Generated from a VAE trained with IAF

InfoGAN (code).Peter Chen 和同时给出了 InfoGAN —— 一个对 GAN 的扩展,学习图像的去纠缠的和可解释的表示. 正常的 GAN 通过用模型重新产生数据分布达到这个目的,但是代码空间的 layout 和组织是 underspecified —— 存在很多可能的解可以将单位 Gaussian 映射到图像上,最终获得的可能是非常复杂和高度纠缠的. InfoGAN 对该空间引入了额外的结构通过增加一个新的包含最大化表示向量和观测值的小的子集的互信息目标函数. 这个方法给出相当出色的结果. 例如,在 3D 人脸图像中,我们变动代码的一个连续的维度,保持其他维度不变. 很明显从 5 个提供的例子中(每一行),代码的结果维度刻画了可解释的维度,并且模型在没有告诉这些重要特征存在的情形下可能已经理解到是存在摄像头角度、面部变化等等:

我们同样注意到良好的,去纠缠的表示之前已经有了这样的研究(如 Kulkarni 等人的DC-IGN),但这些方法依赖于额外的监督信息,而现在的这个方法则是完全非监督的.

用openai改进的VAE和GAN优化commaai的相关部分,想必能提高commaai自动驾驶效果,欢迎大家一起尝试!

原文发布于微信公众号 - CreateAMind(createamind)

原文发表时间:2016-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例

新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的...

63260
来自专栏机器之心

蒙特利尔大学开放MILA 2017夏季深度学习与强化学习课程视频(附完整PPT)

机器之心整理 参与:黄小天、蒋思源 2016 年,Aaron Courville 和 Yoshua Bengio 组织的 MILA 深度学习夏季课程获得了极大...

384120
来自专栏华章科技

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

8310
来自专栏大数据文摘

机器学习算法一览

369140
来自专栏人工智能头条

深度学习在计算机视觉领域的前沿进展

29930
来自专栏新智元

斯坦福“黑盒学习”研究:使用神经变分推理的无向图模型,可替代“采样”

摘要 机器学习中的许多问题可以自然地用无向图模型的语言表达。在这里,我们提出了无向模型的黑箱学习和推理算法,优化了模型的对数似然的变分近似。我们的方法的核心是我...

38770
来自专栏人工智能

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

37350
来自专栏大数据挖掘DT机器学习

AdaBoost--从原理到实现

一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而...

38260
来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

1.2K30
来自专栏AI科技评论

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军,领衔图像描述生成技术

AI 科技评论按:图像描述生成技术是一个计算机视觉与 NLP 交叉研究领域的研究领域,在如今的浪潮下更显火热。今年8月,腾讯 AI Lab 凭借自主研发的强化学...

39460

扫码关注云+社区

领取腾讯云代金券