首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递6.27

每日学术速递6.27

作者头像
AiCharm
发布2023-07-26 19:51:32
发布2023-07-26 19:51:32
3370
举报
文章被收录于专栏:AiCharmAiCharm
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CL

1.Improving Long-Horizon Imitation Through Instruction Prediction(AAAI 2023)

标题:通过指令预测改进长期模仿

作者:Joey Hejna, Pieter Abbeel, Lerrel Pinto

文章链接:https://arxiv.org/abs/2306.12554

项目代码:https://github.com/jhejna/instruction-prediction

摘要:

复杂的长期规划及其组合性质给基于学习的智能体带来了严峻的挑战。在低数据情况下,这种设置的困难会加剧,其中过度拟合会抑制泛化,复合错误会损害准确性。在这项工作中,我们探索了一种经常未使用的辅助监督来源的使用:语言。受基于变压器的模型最新进展的启发,我们训练具有指令预测损失的代理,鼓励学习在高抽象级别上运行的时间扩展表示。具体来说,我们证明,在 BabyAI 和 Crafter 基准上进行有限数量的演示训练时,指令建模可以显着提高规划环境中的性能。在进一步的分析中,我们发现指令建模对于需要复杂推理的任务最为重要,而在需要简单计划的环境中提供的收益较小,这是可以理解的。

Subjects: cs.RO

2.RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

标题:RoboCat:用于机器人操作的自我改进基础代理

作者:Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza

文章链接:https://arxiv.org/abs/2306.11706

摘要:

利用来自不同机器人和任务的异构机器人经验来快速掌握新颖的技能和实施例的能力有可能改变机器人的学习。受视觉和语言基础模型最新进展的启发,我们提出了一种用于机器人操作的基础代理。该代理名为 RoboCat,是一种视觉目标条件决策转换器,能够消耗多实施例动作标记的视觉体验。这些数据涵盖了来自模拟和真实机器人手臂的大量运动控制技能,以及不同的观察和动作集。通过 RoboCat,我们展示了泛化到新任务和机器人的能力,既可以是零样本,也可以通过仅使用 100--1000 个目标任务示例进行适应。我们还展示了如何使用经过训练的模型本身来生成用于后续训练迭代的数据,从而为自主改进循环提供基本构建块。我们通过模拟和三个不同的真实机器人实施例进行大规模评估来研究代理的能力。我们发现,随着训练数据的增长和多样化,RoboCat 不仅表现出跨任务迁移的迹象,而且在适应新任务方面也变得更加高效。

3.Language to Rewards for Robotic Skill Synthesis

标题:机器人技能综合奖励的语言

作者:Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas

文章链接:https://arxiv.org/abs/2306.08647

项目代码:https://language-to-reward.github.io/

摘要:

大型语言模型(LLM)在通过上下文学习(从逻辑推理到代码编写)获取各种新能力方面取得了令人兴奋的进展。机器人研究人员还探索了利用法学硕士来提高机器人控制的能力。然而,由于低级机器人动作依赖于硬件,并且在法学硕士培训语料库中代表性不足,因此将法学硕士应用于机器人技术的现有努力在很大程度上将法学硕士视为语义规划器或依赖于人类设计的控制原语与机器人进行交互。另一方面,奖励函数被证明是灵活的表示,可以针对控制策略进行优化以实现不同的任务,而它们的语义丰富性使它们适合由法学硕士指定。在这项工作中,我们引入了一种新的范例,通过利用法学硕士来定义可以优化并完成各种机器人任务的奖励参数,从而利用这种实现。使用奖励作为 LLM 生成的中间接口,我们可以有效地弥合高级语言指令或对低级机器人动作的纠正之间的差距。同时,将其与实时优化器 MuJoCo MPC 相结合,可实现交互式行为创建体验,用户可以立即观察结果并向系统提供反馈。为了系统地评估我们提出的方法的性能,我们为模拟四足机器人和灵巧机械手机器人设计了总共 17 个任务。我们证明,我们提出的方法可以可靠地解决 90% 的设计任务,而使用原始技能作为代码即策略接口的基线可以实现 50% 的任务。我们在真实的机器人手臂上进一步验证了我们的方法,其中复杂的操作技能(例如非抓握式推动)通过我们的交互系统出现。

推荐阅读

CVPR 2023|All in UniSim:统一的自动驾驶仿真平台

2023-06-26

每日学术速递6.26

2023-06-26

CVPR 2023 | Video Similarity大赛双赛冠军方案&微信视觉团队

2023-06-25

每日学术速递6.25

2023-06-25

点击卡片,关注「AiCharm」公众号

喜欢的话,请给我个在看吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档