DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
人类是擅于模仿的,我们和其他动物通过观察行为来模仿,理解它对环境状态的感知影响,并找出我们的身体可以采取什么行动来达到类似的结果。
对于机器人学习任务来说,模仿学习是一个强大的工具。但在这类环境感知任务中,使用强化学习来指定一个回报函数却是很困难的。
DeepMind最新论文主要探索了仅从第三人称视觉模仿操作轨迹的可能性,而不依赖action状态,团队的灵感来自于一个机器人机械手模仿视觉上演示的复杂的行为。
DeepMind提出的方法主要分为两个阶段:
1、提出一种操作器无关的表示(MIR,...