专栏首页arxiv.org翻译专栏引导式Dyna-Q用于移动机器人探索和导航(CS RO)
原创

引导式Dyna-Q用于移动机器人探索和导航(CS RO)

基于模型的强化学习(RL)使代理能够从反复试验的经验中学习世界模型,以实现长期目标。 另一方面,自动计划可用于通过声明性行动知识进行推理来完成任务。 尽管他们有共同的目标来完成复杂的任务,但是由于他们不同的计算方式,RL和自动计划的开发主要被隔离了。 我们着重于改进基于模型的RL代理的探索策略和样本效率,开发了导向Dyna-Q(GDQ),以使RL代理以行动知识进行推理,从而避免探索不相关的状态来实现更高效的任务完成。 GDQ已在仿真中进行了评估,并使用移动机器人在办公环境中执行导航任务。 结果表明,GDQ减少了探索工作,同时提高了学习策略的质量。

原文题目:Guided Dyna-Q for Mobile Robot Exploration and Navigation

原文:Model-based reinforcement learning (RL) enables an agent to learn world models from trial-and-error experiences toward achieving long-term goals. Automated planning, on the other hand, can be used for accomplishing tasks through reasoning with declarative action knowledge. Despite their shared goal of completing complex tasks, the development of RL and automated planning has mainly been isolated due to their different modalities of computation. Focusing on improving model-based RL agent's exploration strategy and sample efficiency, we develop Guided Dyna-Q (GDQ) to enable RL agents to reason with action knowledge to avoid exploring less-relevant states toward more efficient task accomplishment. GDQ has been evaluated in simulation and using a mobile robot conducting navigation tasks in an office environment. Results show that GDQ reduces the effort in exploration while improving the quality of learned policies.

原文作者:Yohei Hayamizu,Saeid Amiri,Kishan Chandan,Shiqi Zhang,Keiki Takadama

原文地址:https://arxiv.org/abs/2004.11456

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 复杂作业中的无监督关键字短语关系分类(CS CAS)

    复杂作业是一个开放式的问题,其内容各不相同,而与课程和交流方式的多样性无关。规模庞大而来的是评论不完整,缺少细节的问题,从而导致高等级的要求。因此,为了自动将分...

    时代在召唤
  • 端到端基于视觉的机器人操纵的高效适应(CS RO)

    机器人学习系统的巨大前景之一是,它们将能够从错误中学习,并不断适应不断变化的环境。尽管有这种潜力,但当今大多数机器人学习系统都是作为固定策略部署的,部署后并未进...

    时代在召唤
  • 从零开始的混合控制:确保机器人任务的设计方法(CS RO)

    过去数十年来的机器人研究使我们采用了不同的体系结构,以自动合成离散事件控制器,并在实际的机器人场景中实现这些运动和任务计划。 但是,这些体系结构通常建立在现有的...

    时代在召唤
  • GoogLeNet的心路历程(二)

    本文介绍关于GoogLeNet的续作,习惯称为inception v2,如下: [v2] Batch Normalization: Accelerating D...

    用户1332428
  • Phpcms v9漏洞分析

    最近研究源码审计相关知识,会抓起以前开源的CMS漏洞进行研究,昨天偶然看见了这个PHPCMS的漏洞,就准备分析研究一番,最开始本来想直接从源头对代码进行静态分析...

    FB客服
  • WPF 同一窗口内的多线程 UI(VisualTarget)

    发布于 2017-10-30 15:38 更新于 2018-09...

    walterlv
  • Angular网站国际化处理

    angular.js 官方出了一个模块 angular-translate 来解决多语言国际化问题

    聚沙成塔
  • 实例感知的图像着色(CS CV)

    图像着色本来就是一个具有多模态不确定性的问题。以往的方法利用深度神经网络将输入的灰度图像直接映射到可信的颜色输出。尽管这些基于学习的方法展示了令人印象深刻的性能...

    刘持诚
  • 【编程经验】getchar、getch、getche三者的区别

    getchar、getch、getche三者的区别 今天给大家区分一下这三个单字符接受函数的区别。 getchar函数 是C语言标准...

    编程范 源代码公司
  • 2019中国计算机高引学者榜单出炉,164人入选,周志华位列第二

    全球最大学术出版商之一爱思唯尔(Elsevier),发布了2019年中国高引学者榜单。

    量子位

扫码关注云+社区

领取腾讯云代金券