原文标题:An Empirical Study on the Practical Impact of Prior Beliefs over Policy Types
摘要:许多代理应用程序要求代理快速学习如何与以前未知的其他代理交互。为了解决这个问题,研究人员研究了基于其他代理的观察到的一组策略上计算后验信念的学习算法。后信念由先前的信念作为补充,它规定了在观察任何行动之前政策的主观可能性。在本文中,我们提出了第一次全面的实证研究,在重复的相互作用中,先验信念对政策的实际影响。我们表明,先前的信念可以对这些方法的长期性能产生重大影响,影响的大小取决于规划范围的深度。此外,我们的结果表明,自动方法可以用来计算具有一致性能效应的先验信念。这表明以前的信念可以作为手动参数被消除,取而代之的是自动计算。
地址:https://arxiv.org/abs/1907.05247
作者:Stefano V. Albrecht, Jacob W. Crandall, Subramanian Ramamoorthy
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。