Openai发布增强学习的安全限制测量工具,研究如何让AI不做“傻事”

Openai推出了一套工具和环境Safety Gym,帮助他们进行受限增强学习算法。Safety Gym可用来评估增强学习代理人,在训练时尊重安全约束的进展。Openai提到,要将深度学习应用在现实世界中,无论是实际的机器人还是网络技术,人工智能学习时都需要有安全算法,让他们不需要实际经历事故,就可以学会避免危险发生。

增强学习是一个通过探索环境学习最佳行为的方法,需要通过代理人不停地试错来运行,在代理人尝试一些行为之后,判断有效与无效的行为,增加良好行为的可行性,并减少无效行为的可能性,以达到最终设置的目标。但Openai提到,探索本身就是危险的事,代理人可能尝试了无法接受的危险行为。

而这衍生出安全探索(Safe Exploration)的议题,Openai表示,安全探索的具体做法便是受限(Constrained)增强学习,受限增强学习与普通增强学习相似,只是代理人除了要最大化奖励函数之外,环境还需要增加了成本函数来限制代理人,像是要自动驾驶汽车从A点开到B点,受限增强学习能够约束自动驾驶行为以符合交通规则。

Openai表示,普通增强学习的一大问题是,代理人的最终行为,都由奖励函数来描述,但是从根本来说,奖励设计非常困难,因为需要权衡的任务性能以及安全性要求,是两个互相竞争目标,但是在受限增强学习则不需要做出取舍,而是选择结果,由算法算出人类想要的结果。

为了要研究受限增强学习,Openai推出了一系列称为Safety Gym的工具和环境,相较于现存的受限增强学习的环境,Safety Gym提供更丰富的学习环境,具有更大的难度以及复杂度范围。在Safety Gym中,机器人必须要在混乱的环境中完成任务,默认有Point、Car和Doggo(下图)三种机器人,以及完成目标、按钮和推三种默认主要任务。

作为开放给社群的研究基础,Openai在Safety Gym基准组件上测试了普通增强学习以及受限增强学习算法,Openai提到,他们初步的结果显示,Safety Gym可用来进行广泛困难度的增强学习算法测试。

(下图)PPO和TRPO为普通的增强学习算法,同时Openai也为这两种算法加入应用拉格朗日力(Lagrangian)的版本,作为安全性惩罚成本以限制其优化,而CPO(Constrained Policy Optimization,CPO)则为受限的增强学习。

Openai意外发现,在Safety Gym环境中,应用拉格朗日力(Lagrangian)方法的算法,竟比CPO的表现还要好上许多,而这推翻了过去的研究结果。为了帮助研究人员可以快速上手实验,Openai发布了实验所用的代理人实例。

接下来,Openai提到,他们会改进受限增强学习,并与其他问题设置和安全技术结合,Openai提到,他们希望Safety Gym除了能够量化精确度和性能之外,未来还能量化安全性,如此政府便可能将这套评估方案,用来创建安全标准。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191123A0LI5P00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券