前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind提出了一种训练“安全”强化学习人工智能的新方法

DeepMind提出了一种训练“安全”强化学习人工智能的新方法

作者头像
AiTechYun
发布2019-12-19 15:52:45
8920
发布2019-12-19 15:52:45
举报

编辑 | TGS 发布 | ATYUN订阅号

强化学习代理,是一种通过奖励或惩罚机制逐步刺激目标实现的人工智能——它构成了自动驾驶汽车、灵巧机器人和药物发现系统的基础。但是因为它们倾向于探索不熟悉的状态,所以它们会很容易受到所谓的安全探索问题的影响,在这个问题上,他们会变得专注于不安全的状态(比如,一个移动机器人把车开进了沟里)。

为此,Alphabet旗下DeepMind的研究人员在一篇论文中描述了一种奖励建模方法,该方法分两个阶段进行,适用于代理人不知道不安全状态可能在哪里的环境。研究人员表示,他们的方法不仅成功地训练了一个奖励模型,在不访问不安全状态的情况下检测它们,还可以在代理部署之前纠正奖励黑客行为(奖励规范中的漏洞)——甚至是在新的,以及不熟悉的环境中,完成这一机制运行。

DeepMind团队的方法鼓励代理通过两个系统生成的假设行为探索一系列状态:初始状态的生成模型和前向动力学模型,这两个模型都是根据随机轨迹或安全专家演示等数据进行训练的。

一个人类主管用奖励来奖励行为,并且代理人交互地学习政策以最大化他们的奖励。只有当代理成功地学会预测奖励和不安全状态之后,他们才能部署以执行所需的任务。正如研究人员所指出的,关键的想法是,在不与环境直接互动的情况下,对假设的行为从无到有地进行积极的综合,使它们尽可能地提供信息。

DeepMind团队称其为“通过轨迹优化的奖励查询合成”,或者“请求”,并解释说它总共产生了四种类型的假设行为。第一种类型最大化了奖励模型集合的不确定性,而第二种和第三种类型最大化了预期奖励(为具有最高信息价值的行为获取标签)并最小化预期奖励(为奖励模型可能错误预测的行为提供解释)。对于第四类行为,它最大化了轨迹的新颖性,从而鼓励探索而不考虑预测的奖励。

最后,一旦奖励模型达到一个令人满意的状态,就会部署一个基于计划的代理——该代理利用模型预测控制来选择为学习奖励优化的操作。与通过尝试和错误学习的无模型强化学习算法不同,这种MPC使代理通过使用动态模型来预测动作的后果来避免不安全状态。

论文最后,论文合著者们表示:“据我们所知,ReQueST是第一个安全学习不安全状态和尺度的奖励建模算法,用于在高维连续状态的环境中训练神经网络奖励模型。到目前为止,我们只证明了在相对简单的动态模拟域中请求的有效性。未来工作的一个方向是,用更真实的物理和环境中的其他代理,在3D领域测试请求。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档