基于公平约束的机器人团队资源分配强化学习

原创

Jarvis Cocker

发布于 2019-07-17 15:26:12

5000

发布于 2019-07-17 15:26:12

原文标题：Reinforcement Learning with Fairness Constraints for Resource Distribution in Human-Robot Teams

摘要：在机器人和运筹学方面的许多工作都集中在最优资源分配上，其中一个Agent动态地决定如何在不同的候选对象之间依次分配资源。然而，大多数工作忽略了候选人甄选中公平的概念。在机器人将资源分配给人类团队成员的情况下，过分偏袒表现最好的队友会对团队动态和系统接受产生负面影响。提出了一种具有公平约束的多武器强盗算法，该算法将资源分配给不同技术水平的人类队友。在这个问题中，机器人不知道每个人类队友的技能水平，而是通过观察他们的表现来学习它。我们将公平性定义为对每个人类队友在整个任务中被选择的最小比率的限制。我们为算法的性能提供了理论保证，并进行了大规模的用户研究，对算法的公平性进行了调整。结果表明，资源分配的公平性对用户对系统的信任有显著的影响。

地址：https://arxiv.org/abs/1907.00313

作者：Houston Claure, Yifang Chen, Jignesh Modi, Malte Jung, Stefanos Nikolaidis

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

强化学习