前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题

征服强化学习! Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题

作者头像
新智元
发布2020-07-09 14:52:38
3700
发布2020-07-09 14:52:38
举报
文章被收录于专栏:新智元新智元

新智元推荐

编辑:元子

【新智元导读】ConQUR - ConQUR 是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题。在实际应用场景中,深度学习,神经网络与Q-learning的结合会导致其在某种状态(state)下选择「非合法性」(non-feasible)的动作(action)。这种情况称之为妄想偏见(delusional bias),其引起Q-Learning在收敛与应用上的不稳定性,继而触发落地上的种种问题。

众所周知,强化学习在应用落地和理论之间存在巨大的偏差,理想很美好,现实很骨感。Google AI围绕这个复杂的问题,在NeurIPS2018 最佳论文探讨并指出妄想偏见成为Q-Learning部署落地中的一个重要问题。而ConQUR算法更是NeurIPS2018的辉煌延续,提出了一个突破式落地方案,也成功入选了ICML2020.

ConQUR - ConQUR 是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题。在实际应用场景中,深度学习,神经网络与Q-learning的结合会导致其在某种状态(state)下选择“非合法性”(non-feasible)的动作(action)。这种情况称之为妄想偏见(delusional bias),其引起Q-Learning在收敛与应用上的不稳定性,继而触发落地上的种种问题。

为方便读者更好理解妄想偏见,请看图下的例子

上图为一个MDP例子,总共有三个状态(以圆圈中的数字表示),在S1和 S2中,可选动作有a,b. 绿色的$50示为+50奖励,红色侧反之。在Q-Learning落地中,所Q值通常以线性函数f((s,a))来拟合,其中(s,a)是已知的固定特征(为上图表示), 而为待拟合参数。

在这个简单的MDP例子中,如果我们直接上Q-Learning,所学习到的策略为下图所显示,很明显地,这并非最优策略。为什么会出现这种情况呢?因为在每次我们利用Q-Learning算法中的Bellman backup来求解之时,我并没有考虑其中“合法性”的问题。

因此,当我们做Q更新时遇到了“非合法”的动作状态时,所学习和拟合到参数为“非一致” (Non-consistent)。最终,通过Q-Learning学习出的策略并非最优(如下图显示)。

上图为Q-Learning所学习到的非最优策略

如果解决妄想偏见?

ConQUR的核心部分利用了强化学习中的“一致性” (Consistency)去解决了此问题。其算法为以下两个主要部分“

其一, 在每次Q更新中注入一个简单且高效的Consistency Penalization,使其每次Q更新中,Policy上将会达到更大程度上的“一致” (此“一致”指的是和更新前的Q 函数相比)。当Policy和Value达到一致之后,所拟合的Q函数将最大情度地缓冲了妄想偏见。

其二 ,ConQUR提出了一套搜索框架,在众多的information set (信息集)中,寻找最“一致”且“纯净”(Delusion-Free)的Q Regressor。其搜索策略为广度优先搜索来构建搜索树,可更加合理的降低内存需求和提高搜索算法的效率。

上图为ConQUR算法的演示。

实验结果:

与传统的深度Q学习(Deep Q-Learning) 相比,ConQUR在所有的Atari游戏中大获全胜,取得重量级别的性能提升:高达125%!

上图为ConQUR在Solaris中学习到更“纯净”的决策。

上图为ConQUR在Gravitar和SpaceInvaders的表现。

上图为ConQUR与传统DQN的比较。

上图为ConQUR在Atari上的强势表现。

引申应用

ConQUR有效的解决了强化学习在理论与实际落地的问题。其应用可延伸至各行各业包括:机器人、计算机视觉、计算机系统、健康、交通、教育、金融、能源、商业管理、游戏、自动驾驶 等等。

金融上的应用:近年来,传统的算法交易得到了发展,如今高计算能力的系统已经实现了任务的自动化。本文提出的ConQUR算法可在复杂且高频的大数据中发掘其潜能,从繁而复杂的金融交易环境上有效的学习到“纯净”且高效的交易策略,从而辅助交易员来制定有效实时的交易计划并走上人生巅峰。

教育上的应用:以往线下教学模式受限于师生比例,老师的精力和水平难以顾全每个学生的学习。本文提出的ConQUR算法可针对每个老师与每个学生中制作出独立的最优价值函数(optimal value function),从而实现个性化教学的自适应教育,并让学生更有效的吸收课本知识。

无人驾驶上的应用:随着L4与更高级无人驾驶技术的发展,高效而安全的路径规划越来越重要。ConQUR算法能通过和环境,车辆,行人与无人驾驶汽车之间的交互中,提供在相应的观测中采取最优行为,通过提供更高效的路径规划(Path Plannng) 从而帮助无人驾驶技术更上一层楼。

健康上的应用:在人们日益关注健康的今天,如何监测自己的身体状况并立刻作出相对的应变是健康的关键。ConQUR 将会摇身一变成为AI健康师为每个用户提供主动和个性化的决策与服务。

论文作者

DiJia Su(苏迪加) ,本论文的第一作者,目前在普林斯顿大学攻读博士,研究方向是人工智能与强化学习。他本科毕业于UBC工程系,后在加州理工获得了硕士学位,曾在Amazon AI,Uber AI Lab 与Google AI Lab担任过人工智能研究员。迪加平时也积极参与普林中国学生会,担任副主席的职位。人生座右铭就像tvb那句万年台词一样,做人嘛,最紧要开心。

联系方式:

andy.2008.su@gmail.com

Craig Boutilier 是谷歌的首席科学家,人工智能与强化学习的资深专家, 加拿大皇家学会(RSC)、计算机械协会(ACM)和人工智能促进协会(AAAI)的院士。他是2018年ACM/SIGAI自主代理研究奖的获得者,他被授予加拿大一级研究主席。

Dale Schurmanns是谷歌大脑的研究科学家和大学教授, 人工智能与强化学习的资深专家,以及人工智能促进协会的研究员。他目前担任IEEE Transactions on Pattern Analysis and Machine Intelligence的副主编,此前曾担任JMLR、AIJ、JAIR和MLJ的副主编,并担任AAAI-2016、NIPS-2008和ICML-2004的程序联合主席。

文章链接:

https://arxiv.org/pdf/2002.12399.pdf、

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】ConQUR - ConQUR 是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题。在实际应用场景中,深度学习,神经网络与Q-learning的结合会导致其在某种状态(state)下选择「非合法性」(non-feasible)的动作(action)。这种情况称之为妄想偏见(delusional bias),其引起Q-Learning在收敛与应用上的不稳定性,继而触发落地上的种种问题。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档