加州大学伯克利分校的研究人员推出了一种新的基于能力的算法，称为对比内在控制 (CIC)，用于无监督技能发现

代码医生工作室

发布于 2022-04-14 15:26:21

6150

发布于 2022-04-14 15:26:21

文章被收录于专栏：相约机器人

在存在外在奖励的情况下，深度强化学习 (RL) 是处理复杂控制任务的强大策略。玩像素视频游戏、掌握围棋游戏、机器人移动性和灵巧的操纵策略都是成功应用的例子。

虽然有效，但上述进步导致智能体无法泛化到新的下游任务，而不是接受训练的任务。另一方面，人类和动物可以学习技能并将其应用于一系列下游活动，而无需监督。在最近的一篇论文中，加州大学伯克利分校的研究人员旨在通过有效地调技能以适应下游任务，来教授具有泛化能力的代理。

近年来，无监督 RL 已成为构建可以泛化到新任务的 RL 代理的一种潜在方法。代理在无监督 RL 场景中使用自我监督的内在奖励进行预训练，然后使用外在奖励微调到下游任务。

基于知识、基于数据和基于能力的方法是无监督 RL 算法的三种类型。基于知识的策略最大化预测模型的不准确性或不确定性。使用基于数据的策略最大化代理访问的熵。基于能力的方法教授的技能会导致广泛的行为。本研究属于第二组基于能力的探索策略。

与基于知识和基于数据的算法不同，基于能力的算法同时解决了探索困难，并将生成的经验浓缩为可重用的能力。这使得它们特别有趣，因为由此产生的基于技能的政策（或人才）可以被微调以有效地处理下游任务。虽然有许多可以使用的自我监督目标，但这项工作属于学习技能的一系列策略，这些策略可以最大化访问状态和潜在技能向量之间的互信息。

该团队在本文中研究了使用基于能力的算法预训练代理的问题。提出了对比内在控制 (CIC)，这是一种采用新的互信息目标估计器的探索技术。CIC 将状态熵的粒子估计与条件熵的噪声对比估计相结合，使其能够产生和区分高维连续技能（探索）（exploitation）。

CIC 是第一个使用对比噪声估计来区分状态转换和潜在技能向量的探索技术。在无监督强化学习基准上，该团队表明 CIC 比以前的探索性算法 (URLB) 更有效地适应下游任务。CIC 在下游任务上的性能优于之前基于能力的算法 79%，总体上优于次优探索方法 18%。

RL 优化算法和 CIC 架构是实际实现的两个关键组成部分。该团队对该方法和这项工作中的所有基线使用相同的 RL 优化方法，以实现比较的公平性和清晰性。研究人员选择了相同的 DDPG 架构来优化我们的方法，因为在 URLB 中实现的基线使用 DDPG5 作为其主干。

该团队使用与 URLB 中相同的基于能力的方法适应过程来适应下游任务。该团队在前 4k 环境交互期间用样本填充 DDPG 回放缓冲区，并利用在此期间获得的外部奖励来微调技能向量 z。虽然通过交叉熵适应 (CMA) 进行微调能力是典型的，但该团队表明，DDPG 中的基本技能网格扫描在 DeepMind Control 上提供了最先进的性能，并且在这个基准上比 SAC 更可靠，因为4k 样本的预算有限（只有四集）。

研究人员在 URLB 任务上测试了他们的方法，其中包括 12 个下游任务，分布在探索算法的三个困难的连续控制域中：walker、quadruped 和 Jaco arm。要在平衡时完成运动任务，必须将 Biped 限制在 2D 垂直平面内。由于更高维的状态动作空间，Quadruped 更加困难，并且它需要 Quadruped 来掌握 3D 环境中的运动能力。Jaco 手臂是一个六自由度机械臂，带有一个三指夹持器，用于在不锁定的情况下操纵和移动物体。在没有外在奖励的情况下，这三种情况都很困难。

CIC 在专家归一化分数上显着击败了过去基于能力的算法（DIAYN、SMM、APS），获得的 IQM 比次优的基于能力的技术 (APS) 高 79%，更广泛地说，产生的 IQM 比其他基于能力的算法高 18%次佳整体基线（ProtoRL）。该团队发现，与以前基于能力的技术相比，CIC 处理更大的连续技能空间的能力是其表现的重要因素之一。

结论

对比内在控制 (CIC) 由加州大学伯克利分校的研究人员开发，是一种新的基于能力的算法，它通过明确鼓励不同的行为，同时使用对比鉴别器将可预测的行为提炼成技能，从而允许比以前的无监督技能发现算法更有效的探索。证明了 CIC 是第一个在 URLB 上获得最佳结果的基于能力的方法。研究人员认为，这将刺激更多研究构建可推广的 RL 代理。

论文：

https://arxiv.org/pdf/2202.00161.pdf

Github：

https://github.com/rll-research/cic

参考：

https://bair.berkeley.edu/blog/2022/02/23/cic/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-03-03，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法