前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Dynamics-Aware Unsupervised Discovery of Skills 笔记

Dynamics-Aware Unsupervised Discovery of Skills 笔记

作者头像
用户1908973
发布2019-07-30 17:50:50
7560
发布2019-07-30 17:50:50
举报
文章被收录于专栏:CreateAMindCreateAMind

关键词:model-base、 model-free、 entropy 、mutual-info、 abstract 、skill-action、 goal-condition、 info-bottleneck、complex dynamics , behaviors dynamics , planet升级版 、diverse task、泛化、discover skill、predict , unsupervised, DADS, behaviors, zero-shaot planning , latent space, exploration curiosity, hierarchical , probabilistic graphical model

state-action 不抽象太难, learning a specific behavior, predictability representaition,

强化学习 state 熵最大,skill 对 state的条件熵最小,技能对世界的控制最可控;可预测,学习小的动力模型,分而治之 ,避免学习全局模型

先无监督学习skill,再基于模型优化任务,skill-condition policy ;skill-condition transition function;

联系互信息探索和基于模型的强化学习

直觉:state 序列和skill的互信息最大,状态skill和动作的互信息最小。为什么这样 看附录下面截图

z x 互信息最小 z r 互信息最大

图9 p基于skill的策略action 10 q世界模型的抽象,skill而非action;

目标就是通过优化9 的 π 拉近 9 10 p q的距离

paper63 2001year refed:

继续接论文:

公式7 是两个变量的函数,每个变量分别优化,modelfree 训练π需要及时reard r(9)

公式67 推导参考:

chap4 等其他部分请参考原论文;

相关神文推荐

THERML:THE THERMODYNAMICS OF MACHINE LEARNING

ABSTRACT

In this work we offer an information-theoretic framework for representation learn- ing that connects with a wide class of existing objectives in machine learning. We develop a formal correspondence between this work and thermodynamics and dis- cuss its implications.

Information Bottleneck and its Applications in Deep Learning

kl regular paper: deepmind 2 paper;bert MI 1 paper;uber pomdp imitation 1 paper;

相关定义:

欢迎加入我们!请参考CreateAMind公众号菜单

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档