前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解耦强化学习的值函数学习

解耦强化学习的值函数学习

作者头像
CreateAMind
发布2019-09-09 17:11:06
6190
发布2019-09-09 17:11:06
举报
文章被收录于专栏:CreateAMind

现在AI学习规则还很困难,虽然alphago取得了很大的进展,但是迁移能力很弱,规则一般都涉及到奖励和惩罚,也就是对应到了强化学习的reward函数,人学习规则都比较快,在儿童玩游戏中规则还会经常调整,儿童都能很快的适应,现在强化学习通常是在训练的时候reward规则和整个环境是耦合在一起的,如果可以解耦,AI学习熟悉环境和学习reward分开学习,势必会加快AI的学习,今天介绍的Successor Features就可以一定程度满足这个目的的。

简单来说

ref https://julien-vitay.net/2019/05/successor-representations/

值函数被分解为两部分

reward学习分解为环境的表示学习和收益学习;

今天介绍的paper是:

Successor Features Support Model-based and Model-free Reinforcement Learning

这篇文章对model-base学习介绍的几个定理比较新颖,理论推导比较充分,对model-base的表示学习论证非常充分,通过SFs model-base可以学习一个很好的跟reward相关的表示,非常遗憾的是都是很小环境的实验。

从后面的图1 能看到这个方法有比较好的抽象能力;

从图1 能看到这个方法比较好的抽象能力;

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档