前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【ICML2022】可达性约束强化学习

【ICML2022】可达性约束强化学习

作者头像
数据派THU
发布2022-05-23 11:12:50
4420
发布2022-05-23 11:12:50
举报
文章被收录于专栏:数据派THU
代码语言:javascript
复制
来源:专知本文为论文,建议阅读5分钟本文提出了一种可达性CRL (RCRL)方法,利用可达性分析来刻画最大可行集。

约束强化学习(CRL)最近引起了人们的极大兴趣,因为满足安全约束对现实世界的问题至关重要。然而,现有的CRL方法对折现累积成本的约束通常缺乏严格的定义和安全性保证。另一方面,在安全控制研究中,安全被定义为持续满足一定的状态约束。这种持久安全只在状态空间的一个子集上是可能的,这个子集被称为可行集,对于给定的环境存在一个最优最大可行集。近年来的研究利用基于能量的方法,如控制屏障函数(CBF)、安全指数(SI)等,将安全控制与CRL相结合,利用可行集的先验保守估计,影响了学习策略的性能。针对这一问题,本文提出了一种可达性CRL (RCRL)方法,利用可达性分析来刻画最大可行集。我们用建立的自一致性条件刻画可行集,然后学习一个安全值函数作为CRL的约束。我们还利用多时间尺度随机逼近理论证明了所提算法收敛于局部最优,其中最大可行集是可以保证的。不同基准上的经验结果,如safecontrol-gym和Safety-Gym验证了学习的可行集,在最优标准中的性能,以及RCRL的约束满足,与最先进的CRL基线进行了比较。

https://www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档