专栏首页arxiv.org翻译专栏在连续或大型离散行动空间中进行规划的边际工具(CS AI)
原创

在连续或大型离散行动空间中进行规划的边际工具(CS AI)

基于样本的计划是一种功能强大的算法系列,可以根据环境模型生成智能行为。产生良好的候选动作对于基于样本的计划者的成功至关重要,特别是在连续或大型动作空间中。通常,候选动作生成会耗尽动作空间,使用领域知识,或者最近涉及到学习随机策略以提供此类搜索指导。在本文中,我们探索通过优化一种新颖的客观边际效用来明确学习候选动作生成器。动作生成器的边际效用衡量的是动作的价值相对于先前生成的动作的增加。我们在卷曲,具有连续状态和动作空间的具有挑战性的随机域中验证了我们的方法,以及具有离散但动作空间很大的位置游戏。我们表明,用边际效用目标训练的生成器要优于基于大量领域知识,训练有素的随机策略和其他自​​然目标而建立的手工编码方案,以便为基于采样的计划者生成动作。

原文标题:Marginal Utility for Planning in Continuous or Large Discrete Action Spaces

原文:Sample-based planning is a powerful family of algorithms for generating intelligent behavior from a model of the environment. Generating good candidate actions is critical to the success of sample-based planners, particularly in continuous or large action spaces. Typically, candidate action generation exhausts the action space, uses domain knowledge, or more recently, involves learning a stochastic policy to provide such search guidance. In this paper we explore explicitly learning a candidate action generator by optimizing a novel objective, marginal utility. The marginal utility of an action generator measures the increase in value of an action over previously generated actions. We validate our approach in both curling, a challenging stochastic domain with continuous state and action spaces, and a location game with a discrete but large action space. We show that a generator trained with the marginal utility objective outperforms hand-coded schemes built on substantial domain knowledge, trained stochastic policies, and other natural objectives for generating actions for sampled-based planners.

原文作者:Zaheen Farraz Ahmad, Levi H. S. Lelis, Michael Bowling

原文地址:https://arxiv.org/abs/2006.06054

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 概率公平聚类(CS AI)

    在聚类问题中,中央决策者将获得关于顶点的完整度量图,并且必须提供将某些目标函数最小化的顶点聚类。在公平聚类问题中,顶点具有一种颜色(例如,组中的成员资格),并且...

    刘子蔚
  • 游戏化如何影响软件开发人员:来自GitHub上的一项准实验的警告证据(CS SE)

    我们研究了软件开发人员的行为如何发生变化,以响应从GitHub(一种用于协作编程和软件开发的在线平台)中删除游戏化元素的情况。我们发现,从用户界面(从用户配置文...

    刘子蔚
  • 土耳其命名实体识别中最新神经序列标签模型的评估(CS CL)

    命名实体识别(NER)是一项经过广泛研究的任务,用于提取文本中的命名实体并对其进行分类。NER不仅在下游语言处理应用程序(例如关系提取和问题解答)中至关重要,而...

    刘子蔚
  • 低复杂度交换调度算法:繁忙业务中的延迟优化(CS NI)

    基于在数据中心网络中的应用,本文研究了输入排队交换机的调度问题。 虽然交换机的吞吐量最大化算法已经得到了很好的理解,但是时延分析是最近才发展起来的。 最近的研究...

    用户7095611
  • python2代码搬运到python3要改很多print? 试试用pyCharm的正则表达式替换

    在把以前的一些python2的代码搬运到python3时,最麻烦的一些修改莫过于就是要把以前的print x类的语句全部改成函数式的print(x)的形...

    blmoistawinde
  • turtle雪花小案例

    for _ in range(5): t.up() t.right(60) t.forward(200) t.down() snow()

    py3study
  • 多云一定会起到容灾作用吗?

    容灾这个事情,跟多不多云没有任何关系,单个云厂商的公有云里照样可以保障容灾,复杂度还要比多云低一些,也更具备可操作性。

    赵成
  • 一行命令给猎狐 F4 带口罩 & 检测是否带口罩

    在疫情期间,大家出门都是需要带口罩的,因此,口罩对于大家来说再熟悉不过了,本文我们来做两个与口罩相关的事情。

    Python小二
  • RTOS内功修炼记(四)— 小小的时钟节拍,撑起了内核半边天!

    第一篇文章讲述了任务的三大元素:任务控制块、任务栈、任务入口函数,并讲述了编写RTOS任务入口函数时三个重要的注意点。

    Mculover666
  • “云上”企业的“多云”挑战

    历经十余年的发展,“云”已经成为了今天企业级IT的事实标准。从十年前部署在企业内部专有网络中,通过虚拟化将计算存储和网络资源打通的私有云;到来自第三方,部署在企...

    CloudBest

扫码关注云+社区

领取腾讯云代金券