专栏首页arxiv.org翻译专栏PBCS:通过强化学习和运动计划之间的协同作用进行有效的探索和开发(CS RO)
原创

PBCS:通过强化学习和运动计划之间的协同作用进行有效的探索和开发(CS RO)

勘探与开发之间的权衡是强化学习(RL)的核心。但是,最近的RL研究中使用的大多数连续控制基准仅需要本地探索。这导致了具有基本探索功能的算法的发展,并且在需要更多通用探索的基准测试中表现不佳。例如,正如我们的经验研究所证明的那样,最新的RL算法(例如DDPG和TD3)无法控制甚至很小的2D迷宫中的点质量。在本文中,我们提出了一种新的算法,称为“计划,回放,链式技能”(PBCS),该算法结合了运动计划和强化学习来解决困难的探索环境。在第一阶段,使用运动计划算法来查找单个良好的轨迹,然后通过结合使用Backplay算法的变体和技能链,使用从轨迹得出的课程来训练RL算法。我们表明,该方法在各种尺寸的2D迷宫环境中均优于最新的RL算法,并且能够改善运动规划阶段获得的轨迹。

原文题目:PBCS : Efficient Exploration and Exploitation Using a Synergy between Reinforcement Learning and Motion Planning

原文:The exploration-exploitation trade-off is at the heart of reinforcement learning (RL). However, most continuous control benchmarks used in recent RL research only require local exploration. This led to the development of algorithms that have basic exploration capabilities, and behave poorly in benchmarks that require more versatile exploration. For instance, as demonstrated in our empirical study, state-of-the-art RL algorithms such as DDPG and TD3 are unable to steer a point mass in even small 2D mazes. In this paper, we propose a new algorithm called "Plan, Backplay, Chain Skills" (PBCS) that combines motion planning and reinforcement learning to solve hard exploration environments. In a first phase, a motion planning algorithm is used to find a single good trajectory, then an RL algorithm is trained using a curriculum derived from the trajectory, by combining a variant of the Backplay algorithm and skill chaining. We show that this method outperforms state-of-the-art RL algorithms in 2D maze environments of various sizes, and is able to improve on the trajectory obtained by the motion planning phase.

原文作者:Guillaume Matheron,Nicolas Perrin,Olivier Sigaud

原文地址:https://arxiv.org/abs/2004.11667

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于智能多智能体的系统在电子医疗安全中的应用(CS CAS)

    近年来,用于电子医疗记录(EHR)的广泛系统的可用性和使用不断增加。在诸如医院和其他实验室的医疗中心,在治疗过程中形成了更多的健康数据集。为了提高医疗保健中提供...

    时代在召唤
  • 高级知识评估:基于结果分析,重新设计基于药学专业的网络考试(CS CAS)

    各地信息技术的使用导致对新的教育方式有需求。现代化的电子学习环境将学生的学习知识和技能的教学,学习和评估带入了一个新时代,且考虑到学生的电子学习动机。高等数学课...

    时代在召唤
  • OF-VO:使用商品传感器在行人之间可靠导航(CS RO)

    我们提出一种在行人中安全导航移动机器人的新颖算法。我们的方法使用包括RGB-D相机和2D激光雷达在内的商用视觉传感器,通过光流估计和物体检测来明确预测周围障碍物...

    时代在召唤
  • 机器学习中一些有用的知识

    原文地址:https://machinelearningmastery.com/useful-things-to-know-about-machine-lear...

    人工智能资讯小编
  • SCEA Part II and Part III 的经验谈

    Just received my results this morning and thought I will share my experience wi...

    阿敏总司令
  • Klima公开发布了以消费者为中心的碳补偿应用程序

    Klima的三位共同创始人Andreas Pursian,Markus Gilles和Jonas Brandau是一家致力于帮助消费者了解和抵消碳排放量的应用程...

    甜甜圈
  • 案例研究:建立跨大学学校和研究所的共享资源HPC中心(CS AI)

    在过去的几年中,乔治华盛顿大学在广泛需要先进计算资源的领域招募了许多研究人员。我们讨论了首次在大学一级规划和建立高性能计算中心时会遇到的挑战和障碍,并提出了一套...

    用户7035935
  • CVPR 2019 | 近日新出论文汇总(含视频目标分割、GAN、度量学习、高效语义分割等主题)

    CV君汇总了最近两天新出的CVPR 2019 论文,涵盖内容包括:度量学习、视频目标分割、GAN图像生成、基于RGB图像的物体表面网格生成、深度补全、高效卷积网...

    CV君
  • Top Web Designing Hacks and Trends for Web Development

    Top trends for web design and development. How clients, customers and endeavor d...

    用户4822892
  • 腾讯设计周2020品牌设计语言剖析

    ? ? 1-1. TDW 2020 TDW(腾讯设计周)是由腾讯举办的年度设计盛会,不仅汇聚腾讯设计师,也有来自其他地方和其他行业的设计师分享不同的观点。因为...

    腾讯ISUX

扫码关注云+社区

领取腾讯云代金券