前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >奖励推进:基于最大因果熵原理的转换政策

奖励推进:基于最大因果熵原理的转换政策

原创
作者头像
Jarvis Cocker
发布2019-07-17 15:34:54
9140
发布2019-07-17 15:34:54
举报

原文标题:Reward Advancement: Transforming Policy under Maximum Causal Entropy Principle

摘要:摘要:许多现实世界中的人类行为可以被描述为一个连续的决策过程,如城市旅行者对交通方式和路线的选择(Wu等,2017年)。与机器控制的选择不同的是,机器一般遵循完全理性,采用报酬最高的政策,研究表明,人类代理人在有限理性下做出次优决策(陶、罗德和科克伦,2014年)。这种行为可以用最大因果熵(MCE)原理来建模(Ziebart,2010年)。本文定义并研究了一个一般的报酬转化问题(即报酬推进问题):在MCE原则下,将Agent的策略从原来的策略恢复到预定的目标策略的附加奖励函数的范围。我们证明,给定一个MDP和一个目标策略,有无限多额外的奖励函数可以实现预期的策略转换。此外,我们还提出了一种算法,以最小的“成本”进一步提取额外的奖励,以实现策略转换。

地址:https://arxiv.org/abs/1907.05390

作者:Guojun Wu, Yanhua Li, Zhenming Liu, Jie Bao, Yu Zheng, Jieping Ye, Jun Luo

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档