前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >类似 深度学习自动特征 的 强化学习自动辅助任务学表征

类似 深度学习自动特征 的 强化学习自动辅助任务学表征

作者头像
CreateAMind
发布2019-09-17 16:47:21
4320
发布2019-09-17 16:47:21
举报
文章被收录于专栏:CreateAMind

强化学习的自动任务:表示学习是和适应环境的任务相关的;这篇论文给出了任务相关的表示学习的理论证明。

论文核心观点如下:

Our work opens up the possibility of automatically generating auxiliary tasks in deep reinforcement learning, analogous to how deep learning itself enabled a move away from hand-crafted features.

通过任务可以学到很好的表示。

理论太难,大家需要可以阅读论文:https://arxiv.org/abs/1901.11530

A Geometric Perspective on Optimal Representations for Reinforcement Learning 作者阵容豪华。

有本书举了一个人类学的认知例子:

亚马逊森林有个民族,他们的视觉没有深度,他们生活在茂密树林里面,没有草原上看远程的山的场景,所以书中提到一个场景是,作者带着部落人走出森林指出远程草原的一头牛,说我们要尽快走到那里,部落人说,这个小东西伸手就可以够到啊,由于对草原的深度感知不适应,部落人很想尽快回到森林。

还有一个例子是一位先天眼部疾病的人手术后恢复视觉,在3楼窗户想伸手拿楼下的汽车,因为从未适应过这个世界的视觉没有深度及距离大小的概念。

视觉的深度这个功能是根据环境适应而来。也就某些功能是跟环境是否需要这个功能,是否有相关的任务?是有任务驱动的表示学习;就是这篇论文的思想:表示学习和任务相关,足够多的任务可以学到很好的表示,缺失了某些任务会影响到表示学习,比如上面人类深度视觉的例子。

有了理论保证,如何运用呢?

vae学习表示非常高效,非常好,但是vae的重建某些时候是不必须的,那么DIM不重建学习表示是一种可以选择的方法,及cpc(info NCE);

表示学习最终是服务于任务的,所以任务驱动的表示学习会和任务更贴近,SR解耦了表示值函数 然后和任务驱动的表示学习如何整合呢?laplacian的时间抽象表示又如何整合提升表示学习?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档