前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

作者头像
深度强化学习实验室
发布2022-12-31 09:36:55
3190
发布2022-12-31 09:36:55
举报

本文翻译自自Deepmind Blog

https://www.deepmind.com/publications/active-offline-policy-selection

https://github.com/deepmind/active_ops

排版:OpenDeepRL

当使用离线强化学习 (ORL) 训练智能体时,可以使用离线策略评估 (OPE) 来选择最佳智能体。然而,OPE 具有挑战性,其估计并不总是准确的。在许多应用程序中,假设与真实环境的交互成本太高而无法训练策略是现实的,但评估一些选定的策略仍然是可行的。如果我们有机会与环境交互,我们可以希望获得更好的估计,同时保持与环境交互的少量预算。例如在机器人技术和语言中。我们将此问题称为主动离线策略选择(active-ops)。要明智地使用有限的交互,采用贝叶斯优化方法,从 OPE 值开始,并通过它们采取的行动对不同策略之间的依赖关系进行建模。在几个环境和不同的 ORL 策略上测试了这种方法。

近年来,强化学习 (RL) 在解决现实生活中的问题方面取得了巨大进展——离线 RL 使其更加实用。我们现在可以从一个预先记录的数据集中训练许多算法,而不是与环境直接交互。然而,当我们评估手头的策略时,我们失去了离线 RL 在数据效率方面的实际优势。

例如,在训练机器人操纵器时,机器人资源通常是有限的,与在线 RL 相比,通过离线 RL 在单个数据集上训练许多策略为我们提供了很大的数据效率优势。评估每个策略是一个昂贵的过程,需要与机器人进行数千次交互。当我们选择最好的算法、超参数和一些训练步骤时,问题很快就会变得棘手。

为了使 RL 更适用于机器人等实际应用,我们建议使用智能评估程序来选择部署策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。

主动离线策略选择 在给定预先记录的数据集和与环境的有限交互的情况下从一组策略中选择最佳策略。

为了最大限度地减少与真实环境的交互,我们实现了三个关键功能:

  • Off-policy 策略评估,例如拟合 Q 评估 (FQE),允许我们基于离线数据集对每个策略的性能进行初步猜测。它与许多环境中的地面实况性能良好相关,包括首次应用它的现实世界机器人技术。

FQE 分数与在 sim2real 和离线 RL 设置中训练的策略的基本事实性能非常一致。

策略的回报使用高斯过程联合建模,其中观察包括 FQE 分数和机器人新收集的少量情节回报。在评估一个策略之后,我们获得了关于所有策略的知识,因为它们的分布通过策略对之间的内核相互关联。内核假设,如果策略采取类似的行动——例如将机器人抓手向类似的方向移动——它们往往会有类似的回报。

我们使用 OPE 分数和情景回报将潜在策略性能建模为高斯过程。

策略之间的相似性是通过这些政策产生的行动之间的距离来建模的。

  • 为了提高数据效率,我们应用贝叶斯优化并优先考虑接下来要评估的更有希望的策略,即那些具有高预测性能和大方差的策略。

我们在多个领域的多个环境中演示了此过程:dm-control、Atari、模拟和真实机器人。使用 A-OPS 可以迅速减少遗憾,并且通过适度数量的策略评估,我们确定了最佳策略。

在现实世界的机器人实验中,A-OPS 有助于比其他基线更快地识别出非常好的策略。在 20 个保单中找到一个后悔接近零的保单所花费的时间与使用当前程序评估两个保单所花费的时间相同。

PDF链接:https://arxiv.org/pdf/2106.10251.pdf

代码链接:https://github.com/deepmind/active_ops

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 当使用离线强化学习 (ORL) 训练智能体时,可以使用离线策略评估 (OPE) 来选择最佳智能体。然而,OPE 具有挑战性,其估计并不总是准确的。在许多应用程序中,假设与真实环境的交互成本太高而无法训练策略是现实的,但评估一些选定的策略仍然是可行的。如果我们有机会与环境交互,我们可以希望获得更好的估计,同时保持与环境交互的少量预算。例如在机器人技术和语言中。我们将此问题称为主动离线策略选择(active-ops)。要明智地使用有限的交互,采用贝叶斯优化方法,从 OPE 值开始,并通过它们采取的行动对不同策略之间的依赖关系进行建模。在几个环境和不同的 ORL 策略上测试了这种方法。
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档