征服强化学习！ Google AI 如何用ConQUR算法解决强化学习在应用落地上的难题

新智元

发布于 2020-07-09 14:52:38

4000

发布于 2020-07-09 14:52:38

文章被收录于专栏：新智元

新智元推荐

编辑：元子

【新智元导读】ConQUR - ConQUR 是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题。在实际应用场景中，深度学习，神经网络与Q-learning的结合会导致其在某种状态(state)下选择「非合法性」(non-feasible)的动作(action)。这种情况称之为妄想偏见(delusional bias)，其引起Q-Learning在收敛与应用上的不稳定性，继而触发落地上的种种问题。

众所周知，强化学习在应用落地和理论之间存在巨大的偏差，理想很美好，现实很骨感。Google AI围绕这个复杂的问题，在NeurIPS2018 最佳论文探讨并指出妄想偏见成为Q-Learning部署落地中的一个重要问题。而ConQUR算法更是NeurIPS2018的辉煌延续，提出了一个突破式落地方案，也成功入选了ICML2020.

ConQUR - ConQUR 是一个强大的算法框架有效地解决了Q-Learning在落地中面临的各种问题。在实际应用场景中，深度学习，神经网络与Q-learning的结合会导致其在某种状态(state)下选择“非合法性”(non-feasible)的动作(action)。这种情况称之为妄想偏见(delusional bias)，其引起Q-Learning在收敛与应用上的不稳定性，继而触发落地上的种种问题。

为方便读者更好理解妄想偏见，请看图下的例子

上图为一个MDP例子，总共有三个状态(以圆圈中的数字表示)，在S1和 S2中，可选动作有a,b. 绿色的$50示为+50奖励，红色侧反之。在Q-Learning落地中，所Q值通常以线性函数f((s,a))来拟合，其中(s,a)是已知的固定特征(为上图表示), 而为待拟合参数。

在这个简单的MDP例子中，如果我们直接上Q-Learning，所学习到的策略为下图所显示，很明显地，这并非最优策略。为什么会出现这种情况呢？因为在每次我们利用Q-Learning算法中的Bellman backup来求解之时，我并没有考虑其中“合法性”的问题。

因此，当我们做Q更新时遇到了“非合法”的动作状态时，所学习和拟合到参数为“非一致” (Non-consistent)。最终，通过Q-Learning学习出的策略并非最优(如下图显示)。

上图为Q-Learning所学习到的非最优策略

如果解决妄想偏见？

ConQUR的核心部分利用了强化学习中的“一致性” (Consistency)去解决了此问题。其算法为以下两个主要部分“

其一，在每次Q更新中注入一个简单且高效的Consistency Penalization，使其每次Q更新中，Policy上将会达到更大程度上的“一致” (此“一致”指的是和更新前的Q 函数相比)。当Policy和Value达到一致之后，所拟合的Q函数将最大情度地缓冲了妄想偏见。

其二，ConQUR提出了一套搜索框架，在众多的information set (信息集)中，寻找最“一致”且“纯净”(Delusion-Free)的Q Regressor。其搜索策略为广度优先搜索来构建搜索树，可更加合理的降低内存需求和提高搜索算法的效率。

上图为ConQUR算法的演示。

实验结果：

与传统的深度Q学习(Deep Q-Learning) 相比，ConQUR在所有的Atari游戏中大获全胜，取得重量级别的性能提升：高达125%！

上图为ConQUR在Solaris中学习到更“纯净”的决策。

上图为ConQUR在Gravitar和SpaceInvaders的表现。

上图为ConQUR与传统DQN的比较。

上图为ConQUR在Atari上的强势表现。

引申应用

ConQUR有效的解决了强化学习在理论与实际落地的问题。其应用可延伸至各行各业包括：机器人、计算机视觉、计算机系统、健康、交通、教育、金融、能源、商业管理、游戏、自动驾驶等等。

金融上的应用：近年来，传统的算法交易得到了发展，如今高计算能力的系统已经实现了任务的自动化。本文提出的ConQUR算法可在复杂且高频的大数据中发掘其潜能，从繁而复杂的金融交易环境上有效的学习到“纯净”且高效的交易策略，从而辅助交易员来制定有效实时的交易计划并走上人生巅峰。

教育上的应用：以往线下教学模式受限于师生比例，老师的精力和水平难以顾全每个学生的学习。本文提出的ConQUR算法可针对每个老师与每个学生中制作出独立的最优价值函数(optimal value function)，从而实现个性化教学的自适应教育，并让学生更有效的吸收课本知识。

无人驾驶上的应用：随着L4与更高级无人驾驶技术的发展，高效而安全的路径规划越来越重要。ConQUR算法能通过和环境，车辆，行人与无人驾驶汽车之间的交互中，提供在相应的观测中采取最优行为，通过提供更高效的路径规划(Path Plannng) 从而帮助无人驾驶技术更上一层楼。

健康上的应用：在人们日益关注健康的今天，如何监测自己的身体状况并立刻作出相对的应变是健康的关键。ConQUR 将会摇身一变成为AI健康师为每个用户提供主动和个性化的决策与服务。

论文作者

DiJia Su(苏迪加) ，本论文的第一作者，目前在普林斯顿大学攻读博士，研究方向是人工智能与强化学习。他本科毕业于UBC工程系，后在加州理工获得了硕士学位，曾在Amazon AI，Uber AI Lab 与Google AI Lab担任过人工智能研究员。迪加平时也积极参与普林中国学生会，担任副主席的职位。人生座右铭就像tvb那句万年台词一样，做人嘛，最紧要开心。

联系方式：

andy.2008.su@gmail.com

Craig Boutilier 是谷歌的首席科学家，人工智能与强化学习的资深专家，加拿大皇家学会（RSC）、计算机械协会（ACM）和人工智能促进协会（AAAI）的院士。他是2018年ACM/SIGAI自主代理研究奖的获得者，他被授予加拿大一级研究主席。

Dale Schurmanns是谷歌大脑的研究科学家和大学教授，人工智能与强化学习的资深专家，以及人工智能促进协会的研究员。他目前担任IEEE Transactions on Pattern Analysis and Machine Intelligence的副主编，此前曾担任JMLR、AIJ、JAIR和MLJ的副主编，并担任AAAI-2016、NIPS-2008和ICML-2004的程序联合主席。

文章链接：

https://arxiv.org/pdf/2002.12399.pdf、

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-07，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法