邓力：如何把深度强化学习用于BOT开发

新智元

发布于 2018-03-23 11:10:51

8790

发布于 2018-03-23 11:10:51

文章被收录于专栏：新智元

【新智元导读】深度强化学习（RL）高效利用了日益增加的数据和计算资源，提高我们为世界环境和所有与我们生活相关的应用领域建立计算模型的能力，这为新一代的人机交互方式——bot的开发带来启发。本文是微软研究院人工智能首席科学家邓力在venturebeat上发表的文章，他在文中详细介绍了bot目前所面临的发展机遇，移动端的UI一直不能做到最好，这也是目前行业的“痛点”之一。邓力在本文中解读了深度强化学习在这一领域的应用原理。

今年三月，微软CEO Satya Nadella谈到现在的行业趋势是更普遍地使用人类语言与计算设备交互，他将这一趋势称为“对话即平台”（conversationas a platform）。

他还宣布了几项聊天机器人（bot）计划，包括微软公司的聊天机器人开发工具（bot framework）。今年四月，Facebook推出了带有 bot 的 Messenger platform。5月，谷歌宣布要开发AI驱动的bot，即谷歌助理。自此，bot被广泛认为是一种新的用户界面（UI），会从根本上改变人们对计算机的体验。

APP和网页模式有什么问题？

App平台是苹果公司多年前为其智能手机发明的，之后，谷歌也推出自己的Google Play Store。APP平台建立在一个统一的资源模型上（该模型假定具有一定的内存容量和处理速度的手机能为你提供所需要的一切）。但这也带来一个负面影响，那就是手机屏幕被大量的APP图标霸屏，虽然人们经常使用的APP还不足20个。事实上，活跃的APP数量正在减少。整体而言，虽然已发布的APP数量有好几百万，可其中有许多从未被使用。这无疑是在浪费设备资源和用户下载、安装和管理APP的时间。

网页模式对于移动端的 UI 来说更加糟糕。通过手机使用web服务的频率很低，原因是许多热门网站的设计和优化都是针对非移动的PC端的，而PC通常都接入了宽带。智能手机的带宽和计算能力有限，这对许多Web服务而言是很大的障碍。此外，大多数网站都遵循以页面为中心配置信息的规范，导致（非移动端）浏览器的就像是电子书阅读器。这对于移动设备而言，这并不是最佳选择。这样带来的结果是：我们需要重新设计手机的UI，以实现移动时代的全部潜力。

移动端UI的新范式：对话

幸运的是，在重新设计和再实现过程中，出现了一种适合手机的新模式。这种新的“对话即平台”模式让移动用户能发现、访问和使用与日常生活相关的信息和服务。这种模式下，有用的信息和服务能自然地融入对话里。这种对话式UI模式将会形成一个新的生态，该生态比以前的web生态和app生态有更大的规模优势。这很可能是因为信息产业正在进入一个物质世界数字化的新时代，正在将这些虚拟的联系与现实服务连接起来。这个物质的、交互的、以服务为中心的世界正在超越以往静态的web信息配置时代。

消息（messaging）是新型对话模式的核心，包括一连串的短文本、音频和视频消息。因其具有异步和实时两种性质，消息能推动数字对话的发展。用户不再需要为交互而提前挪出时间，就可以发起近乎实时的对话。

作为智能对话交互代理的Bot

对话交互提供的各种类型的智能服务对以对话为中心的移动UI模式更加重要。我们现在有智能个人助理，如Siri、Google Now、Cortana和Alexa。我们还有能通过自动会话界面来获取的个人聊天机器人（bot）。在新的对话模式的最后阶段：用户可能不再需要下载APP；人工智能的 bot 利用语音和自然语言能力，能智能监控并通过消息UI做出响应，自动将必要的服务资源（很可能储存在云端）提供给用户。

由于最近机器学习和AI有了巨大进展，人工智能bot现在已经成为可能。这些进展使我们能将越来越多的我们所关心的东西自动化。过去几年发展起来的深度学习，特别是过去一年半里产生的深度强化学习（RL），高效利用了日益增加的数据和计算资源，提高我们为世界环境和所有与我们生活相关的应用领域建立计算模型的能力。

在机器学习技术中，RL具有鲜明的特色。你需要用户的反馈，同时也需要奖励用户。这和下国际象棋很像，你在玩的时候不知道奖励是什么，但是最终你会知道。你知道与AI的交互最后的结果是任务完成。你知道目标是预订航班，但是bot只会说那些可以实现这一目标的话，即便用户可能不明白的是，这个bot正在努力追求最终目标和奖励。

这些进展使得自动语音和自然语言理解触手可及，最终使我们能够解决在许多领域对话理解和对话的问题。基于深度强化学习的AI bot 会理解所有领域的语义，还能够扩展到现在还无法涉足的领域。人工智能 bot 会采用迭代和反馈回路来自我发展，并趋于完美。人工智能bot的强化学习组件中内置的环境模式，能够自动地且精致地检测、获取、创造并积累新知识，让我们能发展越来越多的智能服务并积累更多经验，特别是像预定、支付等行为导向型的服务。

三种类型的人工智能bot

大体来说，人工智能 bot有三种类型。第一种是搜寻信息的 bot，其目标是明确的。第二种是要完成某种任务，其中也可能需要搜寻信息，但在短时间内其目标可能是不明确的。你可能问电影院的开放时间。这不是说你的目标只局限在答案上，而是说获得答案是你达到最终目标（看电影）的一个步骤。对于第一种类型，奖赏是明确定义的；而对于第二种类型，奖赏也是相当明确的（或者将会是这样）。

当使用强大的深度强化学习技术进行构建时，以上这两种 bots都有自己定义相当明确的奖励函数（这是强化学习的关键组件）---或者搜寻信息，或者试图完成特定任务（比如预定机票和酒店）。

第三种类型的AI bot 需要的指导最多，它们是社交 bot ，有时也被叫做聊天 bot 或闲聊 bot 。这种 bot 的奖励函数（用于深度强化学习算法）——先简单称之为「情感智能」——不可能被轻而易举地量化。举个例子，你可能向聊天 bot 寻求建议，或者问一些含糊的问题，比如今天做什么, 或者在同 bot 讨论买人寿保险之前先聊聊天。

处理聊天 bot 十分复杂的奖赏函数需要扩大能力，为了给这种能力提供数学基础，研究界和从业者需要深入调查。这里的目标是将普遍使用的强化学习算法（例如用于 AlphaGo 中的关键学习方法）扩展成更好的算法，这种算法能利用信息理论上的和内在激励的奖励。

在切换到其他试图完成任务的 bot 对话之前，这种奖励捕捉用户在与 bot 的对话中获得的情感上的满足感。对于计算机科学家和电子工程师而言，这是一个前景很好的AI研究领域。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-08-05，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习