前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >commaai自动驾驶的改进方法

commaai自动驾驶的改进方法

作者头像
用户1908973
发布2018-07-20 15:31:07
5440
发布2018-07-20 15:31:07
举报
文章被收录于专栏:CreateAMindCreateAMind

commaai的自动驾驶深度网络中,用到了两种深度网络技术,分别是VAE和GAN,

Generative Adversarial Networks (GANs) 这个我们在上面讨论过了,给出一个训练过程作为两个不同的网络的博弈:一个生成器网络(如上)和一个判别器网络尝试分类样本为来自真实分布 $p(x)$ 和模型分布 $\hat{p}(x)$. 每次判别器注意到两个分布之间的差异生成器微微调整了自己的参数,直到最后(理论上)生成器准确地重新制造真实数据分布,判别器随机猜测并不能找到差异.

Variational Autoencoders (VAEs) 让我们可以在概率图模型框架下形式化这个问题,我们会最大化数据的对数似然的下界.

变分自编码器可以执行学习和在复杂的包含隐含变量的概率图模型上进行高效地贝叶斯推断(如 DRAW 或者 Attend Infer Repeat 近期相对复杂的模型). 但是,他们生成的样本会有些模糊不清. GANs 目前生成了清楚的图像,但是因为不稳定的训练动态性很难优化

在openai的生成模型成果中对VAE和GAN分别作出了改进:

Improving GANs(code). 首先,正如上面所说 GANs 是一个非常有前景的生成式模型,因为不像其他方法,他们产生了非常干净和清晰图像,并学习可以包含关于这些纹理有价值的信息的代码. 然而,GANs 被建模成两个网络之间的博弈,保持他们的平衡很重要(且有技巧):例如,他们可能在解之间震荡或者生成器有奔溃的倾向. 在个工作中,Tim Salimans, Ian Goodfellow, Wojciech Zaremba 和其他同事已经引进了一些新的技术让 GAN 训练更加稳定. 这些技术让我们能够规模化 GANs 并获得很好的 128*128 ImageNet 样本:

Generated from DRAW model

Generated from a VAE trained with IAF

我们CIFAR-10 的样本看起来也是非常清晰的——Amazon Mechanical Turk workers可以从真实数据中以错误率 21.3% 区分这些样本(50% 的错误率代表随机猜测):

Real images (CIFAR-10)

Generated images

除了生成更好的图像外,我们引入了一种半监督学习的方法包括判别器产生额外输出来表示输入的标记. 这个方法可以让我们在 MNIST SVHN 和 CIFAR-10 上获得当前最佳结果,而不需要过多的标记样本. 在 MNIST 中,我们仅仅对每个类有 10 个标记样本并使用了一个全连接的神经网络就达到了 99.14% 的准确率——这个结果接近已知最优的使用了 6 万幅标记样本的监督学习方法的结果. 由于标记样本在应用中很难轻易获取,所以上述方法是很有前景的.

生成式对抗网络是相对新的模型(两年前提出来的)我们期望在未来出现更多的提升训练时模型的稳定性的研究成果出现.

Improving VAEs (code) 在这项工作中,Durk Kingma 和 Tim Salimans 引入了一个灵活并且计算规模化方法来提升变分推断的准确率. 尤其是,大多数 VAE 目前训练采用的暴力的近似后验分布,其中每个隐含变量是独立的. 最近的扩展工作 已经通过将每个隐含变量定义在其之前的变量的链上的条件分布解决了这个问题,但由于引入的序列依赖仍没有达到计算高效. 而核心贡献就是称为 逆自递归流 inverse autoregressive flow (IAF) 的方法,该方法允许我们并行化丰富的近似后验分布计算,让这些后验可能任意的灵活计算.

我们在下面的图中展示了一些 32*32 的图像样本. 前一幅是来自 DRAW 模型的早期样本(初级 VAE 样本看起来更差和模糊). DRAW 模型是一年前发表的,这里也可以感受到训练生成式模型的进展迅猛.

Generated from DRAW model

Generated from a VAE trained with IAF

InfoGAN (code).Peter Chen 和同时给出了 InfoGAN —— 一个对 GAN 的扩展,学习图像的去纠缠的和可解释的表示. 正常的 GAN 通过用模型重新产生数据分布达到这个目的,但是代码空间的 layout 和组织是 underspecified —— 存在很多可能的解可以将单位 Gaussian 映射到图像上,最终获得的可能是非常复杂和高度纠缠的. InfoGAN 对该空间引入了额外的结构通过增加一个新的包含最大化表示向量和观测值的小的子集的互信息目标函数. 这个方法给出相当出色的结果. 例如,在 3D 人脸图像中,我们变动代码的一个连续的维度,保持其他维度不变. 很明显从 5 个提供的例子中(每一行),代码的结果维度刻画了可解释的维度,并且模型在没有告诉这些重要特征存在的情形下可能已经理解到是存在摄像头角度、面部变化等等:

我们同样注意到良好的,去纠缠的表示之前已经有了这样的研究(如 Kulkarni 等人的DC-IGN),但这些方法依赖于额外的监督信息,而现在的这个方法则是完全非监督的.

用openai改进的VAE和GAN优化commaai的相关部分,想必能提高commaai自动驾驶效果,欢迎大家一起尝试!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档