原文标题:Reward Advancement: Transforming Policy under Maximum Causal Entropy Principle
摘要:摘要:许多现实世界中的人类行为可以被描述为一个连续的决策过程,如城市旅行者对交通方式和路线的选择(Wu等,2017年)。与机器控制的选择不同的是,机器一般遵循完全理性,采用报酬最高的政策,研究表明,人类代理人在有限理性下做出次优决策(陶、罗德和科克伦,2014年)。这种行为可以用最大因果熵(MCE)原理来建模(Ziebart,2010年)。本文定义并研究了一个一般的报酬转化问题(即报酬推进问题):在MCE原则下,将Agent的策略从原来的策略恢复到预定的目标策略的附加奖励函数的范围。我们证明,给定一个MDP和一个目标策略,有无限多额外的奖励函数可以实现预期的策略转换。此外,我们还提出了一种算法,以最小的“成本”进一步提取额外的奖励,以实现策略转换。
地址:https://arxiv.org/abs/1907.05390
作者:Guojun Wu, Yanhua Li, Zhenming Liu, Jie Bao, Yu Zheng, Jieping Ye, Jun Luo
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。