搞自动驾驶汽车很复杂?其实一个浏览器就行(讲解、代码全都有)

作者:janhuenermann 编译:量子位(QbitAI) · 问耕

自动驾驶高大上?其实在浏览器里也能玩。

上面那个视频是一个2D环境下的无人驾驶系统,在神经网络的驱动下,小车学会如何自动驾驶。这些小车以速度为奖励,来判断当前应该采取怎样的行动。

这个项目的Demo在此,你可以在系统中用鼠标设置新的障碍物,小车可以自己学会绕过障碍。这真是一个让人很兴奋的项目。

下面讲解一下这个项目的技术实现。

神经网络

代理通过调整神经网络(近似函数)的权重来学习。在这个案例中,这涉及两个神经网络:一个状态→动作的网络(3层,150个神经元),一个状态+动作→Q值的网络(2层,200个神经元)。Q值描述了动作的好坏。

通过学习第二个网络,即“价值网络”,可以获取策略梯度,然后可以据此学习第一个网络。第一个网络,即“执行器网络”,就变成了决策者。这个算法成为深度确定性策略梯度(DDPG)。除此以外,这个项目还用到如下技术:优先级经验重放缓冲,ReLU非线性等。

不过最麻烦的部分,还是神经网络中超参数的搜索。至少有十几个参数需要调整,以便达到最佳效果,这是一个缺点。未来希望可以通过自动超参数搜索来解决,即通过一组超参数的迭代来找到最佳选择。

传感器

代理的状态(或称神经网络的输入)由两个时间步长组成,当前时间步长和先前时间步长。这有助于代理基于时间带来的变化作出决策。在每个时间步长内,代理通过19个分布在不同方向的距离传感器收集环境的信息。

传感器就是小车身上伸出的几条线,碰到物体时就会“缩短”。传感器线条越短,代理获得的输入越高(0-代表什么也没碰到,1-代表距离非常近)。此外,时间步长还包括了当前的速度。总的来说,神经网络的输入有158个维度。

探索

DDPG的一个主要问题就是探索。在常规DQN(Deep Q-Network)中,可以把动作进行离散再行选择。那样就能简单的通过Epsilon-Greedy随机动作,混合动作-状态-空间。

而在DDPG的连续空间中就不那么简单了。这个项目使用了dropout作为一种探路方式。意思是随机丢弃执行器网络最后一层的一些神经元,从而在行动中获得某种变化。

多代理学习

除了把dropout应用到执行者网络,我还把四个代理同时放在虚拟环境中。所有这些代理共享相同的价值网络,但有各自的执行器,所以有不同的方法找到不同的状态,这样每个代理就能探索状态-动作空间的不同部分。

总之,这有助于更好和更快的收敛。

这个项目的所有代码、Demo、JavaScript库都能在GitHub上找到。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-02-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习之tensorflow实战篇

IBM SPSS Modeler Social Network Analysis 的介绍和日常应用

IBM SPSS Modeler Social Network Analysis,中文叫做社交网络分析,本文将一律简称 SNA。 引言 IBM Business...

31310
来自专栏目标检测和深度学习

资源 | Texture:一个优雅的开源学术论文书写工具

机器之心整理 作者:思源 近日,Substance 在 GitHub 上开源了一个用于结构文本的文字处理工具 Texture,他们表示该工具像 LaTeX 一样...

37710
来自专栏人工智能头条

用机器学习怎样鉴别不可描述的网站

前两天教师节,人工智能头条的某个精神股东粉群里,大家纷纷向当年为我们启蒙、给我们带来快乐的老师们表达感激之情。

1452
来自专栏华章科技

机器学习和深度学习视频资料精选(附学习资料)

pandax视频教程 链接: https://pan.baidu.com/s/1pLqavVX 密码: fath python入门到精通 链接: http...

1693
来自专栏腾讯大讲堂的专栏

如何节省1T图片带宽?解密极致图像压缩

图像已经发展成人类沟通的视觉语言。无论传统互联网还是移动互联网,图像一直占据着很大部分的流量。如何在保证视觉体验的情况下减少数据流量消耗,一直是图像处理领域研究...

5068
来自专栏AI科技评论

深度| OpenAI 教你如何构建深度学习研究的基础设施

编者按:OpenAI研究工程师Vicki Cheung, Jonas Schneider , Ilya Sutskever, and Greg Brockman...

3776
来自专栏吉浦迅科技

【讲座】在NVIDIA Jetson上从Tensorflow到TensorRT

NVIDIA在太平洋时间3月8日上午11:00-12:00(北京时间3月9日凌晨3:00-4:00)举办了主题为“AI at the Edge: TensorF...

5806
来自专栏应兆康的专栏

9. 优化指标和满足指标

这里有组合多个评价指标的另一个方法。 假设你同时关系算法的精度和运行时间。你需要在如下分类器中进行选择:

37912
来自专栏达观数据

【经验分享】点击模型:达观数据提升算法精度的利器

? 在搜索、推荐、广告引擎中,系统会通过复杂算法生成一个最终的结果列表。用户在看到这个结果列表时,未必都会对排序满意,比如有时觉得排序的顺序有问题,或者发现一...

52110
来自专栏腾讯技术工程官方号的专栏

如何节省 1TB 图片带宽?解密极致图像压缩

在不断出现的新格式被逐步应用之后,兼容性最好的传统老格式 JPEG 依然地位高居不下占据大幅带宽,如何在老格式上也继续挖掘优化点?

76510

扫码关注云+社区

领取腾讯云代金券