开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >解耦强化学习的值函数学习

解耦强化学习的值函数学习

CreateAMind

发布于 2019-09-09 17:11:06

6190

发布于 2019-09-09 17:11:06

举报

文章被收录于专栏：CreateAMind

现在AI学习规则还很困难，虽然alphago取得了很大的进展，但是迁移能力很弱，规则一般都涉及到奖励和惩罚，也就是对应到了强化学习的reward函数，人学习规则都比较快，在儿童玩游戏中规则还会经常调整，儿童都能很快的适应，现在强化学习通常是在训练的时候reward规则和整个环境是耦合在一起的，如果可以解耦，AI学习熟悉环境和学习reward分开学习，势必会加快AI的学习，今天介绍的Successor Features就可以一定程度满足这个目的的。

简单来说

ref https://julien-vitay.net/2019/05/successor-representations/

值函数被分解为两部分

reward学习分解为环境的表示学习和收益学习；

今天介绍的paper是：

Successor Features Support Model-based and Model-free Reinforcement Learning

这篇文章对model-base学习介绍的几个定理比较新颖，理论推导比较充分，对model-base的表示学习论证非常充分，通过SFs model-base可以学习一个很好的跟reward相关的表示，非常遗憾的是都是很小环境的实验。

从后面的图1 能看到这个方法有比较好的抽象能力；

从图1 能看到这个方法比较好的抽象能力；

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-09-05，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.