开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >torcs强化学习的图像生成低纬表示重建效果

torcs强化学习的图像生成低纬表示重建效果

CreateAMind

发布于 2018-07-24 15:10:53

9240

发布于 2018-07-24 15:10:53

举报

文章被收录于专栏：CreateAMind

在强化学习的问题中，策略网络学习到的是从状态空间到动作空间的映射。
状态空间和动作空间的大小决定了策略学习和探索的难易程度。
因此，高维的有噪音的图像作为状态输入之前需要有representation learning 的预训练的过程。首先训练一个神经网络将图像编码成有意义的低维隐变量，之后将这个训练好的网络嵌入到强化学习的策略网络之前处理图像数据。
VAE的编码器可以学习一个低维的隐变量，但是以像素级的重建误差作为损失函数，最后输出的图像真实度较低。考虑结合GAN，计算原始图像在discriminator 的某一层的输出和原始图像经过encoder->generator->discriminator 在同一层的输出的误差作为特征级重建误差。联合训练VAE和GAN。
以上训练的隐变量知识与图像相关，并不一定包含强化学习决策需要的信息，因此增加一个从隐变量到reward的输出，使隐变量也能包含强化学习需要的信息。

上图from commaai paper

commaai的生成模型进行生成torcs道路画面，左侧为生成图像，右侧为实际游戏图像，两个画面为一个epoch的1万次循环训练的效果，下面跨度98个epoch中挑选了部分图片；生成效果的显现很快，很快生成的图像变得很清晰，但是大概在60epoch左右图像开始变模糊，后又恢复。

1

2 出现天空

3

4

5 画面大结构出现

6

7 车的画面也生成了，右侧第一张

8

9

0

1

2

3

1

2 有些清晰了

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-30，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.