类似深度学习自动特征的强化学习自动辅助任务学表征

CreateAMind

发布于 2019-09-17 16:47:21

4420

发布于 2019-09-17 16:47:21

文章被收录于专栏：CreateAMind

强化学习的自动任务：表示学习是和适应环境的任务相关的；这篇论文给出了任务相关的表示学习的理论证明。

论文核心观点如下：

Our work opens up the possibility of automatically generating auxiliary tasks in deep reinforcement learning, analogous to how deep learning itself enabled a move away from hand-crafted features.

通过任务可以学到很好的表示。

理论太难，大家需要可以阅读论文：https://arxiv.org/abs/1901.11530

A Geometric Perspective on Optimal Representations for Reinforcement Learning 作者阵容豪华。

有本书举了一个人类学的认知例子：

亚马逊森林有个民族，他们的视觉没有深度，他们生活在茂密树林里面，没有草原上看远程的山的场景，所以书中提到一个场景是，作者带着部落人走出森林指出远程草原的一头牛，说我们要尽快走到那里，部落人说，这个小东西伸手就可以够到啊，由于对草原的深度感知不适应，部落人很想尽快回到森林。

还有一个例子是一位先天眼部疾病的人手术后恢复视觉，在3楼窗户想伸手拿楼下的汽车，因为从未适应过这个世界的视觉没有深度及距离大小的概念。

视觉的深度这个功能是根据环境适应而来。也就某些功能是跟环境是否需要这个功能，是否有相关的任务？是有任务驱动的表示学习；就是这篇论文的思想：表示学习和任务相关，足够多的任务可以学到很好的表示，缺失了某些任务会影响到表示学习，比如上面人类深度视觉的例子。

有了理论保证，如何运用呢？

vae学习表示非常高效，非常好，但是vae的重建某些时候是不必须的，那么DIM不重建学习表示是一种可以选择的方法，及cpc（info NCE）;

表示学习最终是服务于任务的，所以任务驱动的表示学习会和任务更贴近，SR解耦了表示值函数然后和任务驱动的表示学习如何整合呢？laplacian的时间抽象表示又如何整合提升表示学习？

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-09-12，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

强化学习

登录后参与评论

0 条评论

热度