torcs强化学习的图像生成低纬表示重建效果

  1. 在强化学习的问题中,策略网络学习到的是从状态空间到动作空间的映射。
  2. 状态空间和动作空间的大小决定了策略学习和探索的难易程度。
  3. 因此,高维的有噪音的图像作为状态输入之前需要有representation learning 的预训练的过程。首先训练一个神经网络将图像编码成有意义的低维隐变量,之后将这个训练好的网络嵌入到强化学习的策略网络之前处理图像数据。
  4. VAE的编码器可以学习一个低维的隐变量,但是以像素级的重建误差作为损失函数,最后输出的图像真实度较低。考虑结合GAN,计算原始图像在discriminator 的某一层的输出和原始图像经过encoder->generator->discriminator 在同一层的输出的误差作为特征级重建误差。联合训练VAE和GAN。
  5. 以上训练的隐变量知识与图像相关,并不一定包含强化学习决策需要的信息,因此增加一个从隐变量到reward的输出,使隐变量也能包含强化学习需要的信息。

上图from commaai paper

commaai的生成模型进行生成torcs道路画面,左侧为生成图像,右侧为实际游戏图像,两个画面为一个epoch的1万次循环训练的效果,下面跨度98个epoch中挑选了部分图片;生成效果的显现很快,很快生成的图像变得很清晰,但是大概在60epoch左右图像开始变模糊,后又恢复。

1

2 出现天空

3

4

5 画面大结构出现

6

7 车的画面也生成了,右侧第一张

8

9

0

1

2

3

1

2 有些清晰了

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

原文发布于微信公众号 - CreateAMind(createamind)

原文发表时间:2017-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ACM算法日常

第四篇:《机器学习之逻辑回归(上)》

前面我们学习了线性回归,它通过输入一个样本的所有特征,然后和参数计算得到了自己的预测值,再通过梯度下降完成代价函数的最小化。

11050
来自专栏SIGAI学习与实践平台

理解过拟合

小明是个机器学习爱好者,他很喜欢吃蛋糕。有一天他突然想到:能不能用蛋糕的直径来预测蛋糕的价格。于是他定了各种不同尺寸的蛋糕,然后把尺寸和价格的数据记录起来,接着...

21660
来自专栏机器学习、深度学习

人群计数--Cross-scene Crowd Counting via Deep Convolutional Neural Networks

Cross-scene Crowd Counting via Deep Convolutional Neural Networks CVPR2015 本文主...

35360
来自专栏机器之心

资源 | 源自斯坦福CS229,机器学习备忘录在集结

项目地址:https://github.com/afshinea/stanford-cs-229-machine-learning

9210
来自专栏华章科技

机器学习算法比较

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始...

12730
来自专栏大数据挖掘DT机器学习

SIFT特征提取分析(附源码)

SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest poin...

54450
来自专栏云时之间

《机器学习》西瓜书读书笔记2

2.1:经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为“错误率”,相应的。精度即“1-错误率”。更一般的,我们把学习器的实际预测输出和样本的真...

41160
来自专栏机器之心

资源 | Distill详述「可微图像参数化」:神经网络可视化和风格迁移利器!

图像分类神经网络拥有卓越的图像生成能力。DeepDream [1]、风格迁移 [2] 和特征可视化 [3] 等技术利用这种能力作为探索神经网络内部原理的强大工具...

9420
来自专栏智能算法

机器学习算法比较

来自:D.W's Notes - Machine Learning 作者:刘帝伟 链接:http://www.csuldw.com/2016/02/26/201...

391120
来自专栏PPV课数据科学社区

机器学习算法比较

本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法...

30290

扫码关注云+社区

领取腾讯云代金券