专栏首页arxiv.org翻译专栏端到端基于视觉的机器人操纵的高效适应(CS RO)
原创

端到端基于视觉的机器人操纵的高效适应(CS RO)

机器人学习系统的巨大前景之一是,它们将能够从错误中学习,并不断适应不断变化的环境。尽管有这种潜力,但当今大多数机器人学习系统都是作为固定策略部署的,部署后并未进行调整。我们能否有效地将以前学习的行为适应现实世界中的新环境,对象和感知?在本文中,我们提出了一种有助于持续适应的机器人学习框架的方法和经验证据。尤其是,我们演示了如何通过非政策强化学习(包括背景,对象形状和外观,照明条件以及机器人形态的变化)进行微调,从而使基于视觉的机器人操纵策略适应新的变化。此外,这种改编使用的数据不到从头开始学习任务所需的数据的0.2%。我们发现,采用预训练策略的方法可在微调过程中带来可观的性能提升,而通过RL进行预训练至关重要:从头开始训练或从受监管的ImageNet功能中进行调整都无法成功,因为数量如此之少数据的。我们还发现,这些积极的结果在有限的持续学习环境中发挥作用,在这种学习环境中,我们使用来自一系列新任务的数据反复微调单个策略。我们的经验结论得到模拟操作任务的实验以及在经过580,000次抓握训练的真实机器人抓取系统上进行的52个独特的微调实验的一贯支持。

原文题目:Efficient Adaptation for End-to-End Vision-Based Robotic Manipulation

原文:One of the great promises of robot learning systems is that they will be able to learn from their mistakes and continuously adapt to ever-changing environments. Despite this potential, most of the robot learning systems today are deployed as a fixed policy and they are not being adapted after their deployment. Can we efficiently adapt previously learned behaviors to new environments, objects and percepts in the real world? In this paper, we present a method and empirical evidence towards a robot learning framework that facilitates continuous adaption. In particular, we demonstrate how to adapt vision-based robotic manipulation policies to new variations by fine-tuning via off-policy reinforcement learning, including changes in background, object shape and appearance, lighting conditions, and robot morphology. Further, this adaptation uses less than 0.2% of the data necessary to learn the task from scratch. We find that our approach of adapting pre-trained policies leads to substantial performance gains over the course of fine-tuning, and that pre-training via RL is essential: training from scratch or adapting from supervised ImageNet features are both unsuccessful with such small amounts of data. We also find that these positive results hold in a limited continual learning setting, in which we repeatedly fine-tune a single lineage of policies using data from a succession of new tasks. Our empirical conclusions are consistently supported by experiments on simulated manipulation tasks, and by 52 unique fine-tuning experiments on a real robotic grasping system pre-trained on 580,000 grasps.

原文作者:Ryan Julian,Benjamin Swanson,Gaurav S. Sukhatme,Sergey Levine,Chelsea Finn,Karol Hausman

原文地址:https://arxiv.org/abs/2004.10190

[端到端基于视觉的机器人操纵的高效适应(CS RO).pdf]

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 信息访问悖论:共享时代的日益孤立(CS CAS)

    Twitter,Instagram和YouTube等现代在线媒体使任何人都可以成为信息生产者,并提供在线内容供潜在的全球消费。通过增加全球可访问的实时信息的数量...

    时代在召唤
  • 基于可见性约束的推理障碍与路径有效性(CS RO)

    许多从演示中学习的方法都假设演示者了解整个环境。然而,在许多场景中,演示者只看到环境的一部分,他们在收集信息时不断地重新规划。为了规划新的路径或重建环境,我们必...

    时代在召唤
  • 从零开始的混合控制:确保机器人任务的设计方法(CS RO)

    过去数十年来的机器人研究使我们采用了不同的体系结构,以自动合成离散事件控制器,并在实际的机器人场景中实现这些运动和任务计划。 但是,这些体系结构通常建立在现有的...

    时代在召唤
  • C++核心准则C.136:使用多重继承表现“实现属性”的组合

    C.136: Use multiple inheritance to represent the union of implementation attribu...

    面向对象思考
  • 利用机器学习了解管道故障的驱动因素从而防止主水管破裂(CS CY)

    Data61和Western Water合作,应用工程专业知识和机器学习工具,为墨尔本以西地区的管道故障问题找到了一个经济有效的解决方案,该地区平均每年发生40...

    Elva
  • 具有学术论文链接的GitHub存储库:开放访问,可追溯性和演进(CS.SE)

    在已发布的科学突破及其实现之间的可追溯性至关重要,尤其是在开源软件将前沿科学实现到其代码中的情况下。但是,对齐GitHub存储库和学术论文之间的链接可能会很困难...

    蔡小雪7100294
  • Web App Development: 12 Best Practices You Can't Miss

    Web App Development Best Practices. Every business would love to succeed by crea...

    用户4822892
  • 早起—怎样开启高效的一天?

    原文作者:Gianni Cara  原文出处:www.quora.com/What-is-the-most-inspiring-way-to-start-the...

    Ewall
  • 作者分析中抑制域样式的重要性(CS CL)

    作者分析的许多方法的前提是写作风格的表现。但是,尽管进行了数十年的研究,但仍不清楚在多大程度上常用和广泛接受的表示形式(例如字符三字组频率)实际上代表了作者的写...

    刘子蔚
  • 公共交通中的被动式Wi-Fi监控:以马德拉岛为例(CS CY)

    在过去的几年里,交通变得越来越重要,影响着人们的满意度并显著影响他们的生活质量。在本文中,我们提出了一个更加人性化的无线交通监控系统,以期对低成本的公共交通进行...

    小童

扫码关注云+社区

领取腾讯云代金券