奖励推进：基于最大因果熵原理的转换政策

原创

Jarvis Cocker

发布于 2019-07-17 15:34:54

9300

发布于 2019-07-17 15:34:54

原文标题：Reward Advancement: Transforming Policy under Maximum Causal Entropy Principle

摘要：摘要：许多现实世界中的人类行为可以被描述为一个连续的决策过程，如城市旅行者对交通方式和路线的选择(Wu等，2017年)。与机器控制的选择不同的是，机器一般遵循完全理性，采用报酬最高的政策，研究表明，人类代理人在有限理性下做出次优决策(陶、罗德和科克伦，2014年)。这种行为可以用最大因果熵(MCE)原理来建模(Ziebart，2010年)。本文定义并研究了一个一般的报酬转化问题(即报酬推进问题)：在MCE原则下，将Agent的策略从原来的策略恢复到预定的目标策略的附加奖励函数的范围。我们证明，给定一个MDP和一个目标策略，有无限多额外的奖励函数可以实现预期的策略转换。此外，我们还提出了一种算法，以最小的“成本”进一步提取额外的奖励，以实现策略转换。

地址：https://arxiv.org/abs/1907.05390

作者：Guojun Wu, Yanhua Li, Zhenming Liu, Jie Bao, Yu Zheng, Jieping Ye, Jun Luo

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

深度学习