邓力:如何把深度强化学习用于BOT开发

【新智元导读】深度强化学习(RL)高效利用了日益增加的数据和计算资源,提高我们为世界环境和所有与我们生活相关的应用领域建立计算模型的能力,这为新一代的人机交互方式——bot的开发带来启发。本文是微软研究院人工智能首席科学家邓力在venturebeat上发表的文章,他在文中详细介绍了bot目前所面临的发展机遇,移动端的UI一直不能做到最好,这也是目前行业的“痛点”之一。邓力在本文中解读了深度强化学习在这一领域的应用原理。

今年三月,微软CEO Satya Nadella谈到现在的行业趋势是更普遍地使用人类语言与计算设备交互,他将这一趋势称为“对话即平台”(conversationas a platform)。

他还宣布了几项聊天机器人(bot)计划,包括微软公司的聊天机器人开发工具(bot framework)。今年四月,Facebook推出了带有 bot 的 Messenger platform。5月,谷歌宣布要开发AI驱动的bot,即谷歌助理。自此,bot被广泛认为是一种新的用户界面(UI),会从根本上改变人们对计算机的体验。

APP和网页模式有什么问题?

App平台是苹果公司多年前为其智能手机发明的,之后,谷歌也推出自己的Google Play Store。APP平台建立在一个统一的资源模型上(该模型假定具有一定的内存容量和处理速度的手机能为你提供所需要的一切)。但这也带来一个负面影响,那就是手机屏幕被大量的APP图标霸屏,虽然人们经常使用的APP还不足20个。 事实上,活跃的APP数量正在减少。整体而言,虽然已发布的APP数量有好几百万,可其中有许多从未被使用。这无疑是在浪费设备资源和用户下载、安装和管理APP的时间。

网页模式对于移动端的 UI 来说更加糟糕。通过手机使用web服务的频率很低,原因是许多热门网站的设计和优化都是针对非移动的PC端的,而PC通常都接入了宽带。 智能手机的带宽和计算能力有限,这对许多Web服务而言是很大的障碍。此外,大多数网站都遵循以页面为中心配置信息的规范,导致(非移动端)浏览器的就像是电子书阅读器。这对于移动设备而言,这并不是最佳选择。 这样带来的结果是:我们需要重新设计手机的UI,以实现移动时代的全部潜力。

移动端UI的新范式:对话

幸运的是,在重新设计和再实现过程中,出现了一种适合手机的新模式。这种新的“对话即平台”模式让移动用户能发现、访问和使用与日常生活相关的信息和服务。这种模式下,有用的信息和服务能自然地融入对话里。 这种对话式UI模式将会形成一个新的生态,该生态比以前的web生态和app生态有更大的规模优势。这很可能是因为信息产业正在进入一个物质世界数字化的新时代,正在将这些虚拟的联系与现实服务连接起来。这个物质的、交互的、以服务为中心的世界正在超越以往静态的web信息配置时代。

消息(messaging)是新型对话模式的核心,包括一连串的短文本、音频和视频消息。因其具有异步和实时两种性质,消息能推动数字对话的发展。用户不再需要为交互而提前挪出时间,就可以发起近乎实时的对话。

作为智能对话交互代理的Bot

对话交互提供的各种类型的智能服务对以对话为中心的移动UI模式更加重要。我们现在有智能个人助理,如Siri、Google Now、Cortana和Alexa。我们还有能通过自动会话界面来获取的个人聊天机器人(bot)。 在新的对话模式的最后阶段:用户可能不再需要下载APP; 人工智能的 bot 利用语音和自然语言能力,能智能监控并通过消息UI做出响应,自动将必要的服务资源(很可能储存在云端)提供给用户。

由于最近机器学习和AI有了巨大进展,人工智能bot现在已经成为可能。这些进展使我们能将越来越多的我们所关心的东西自动化。过去几年发展起来的深度学习,特别是过去一年半里产生的深度强化学习(RL),高效利用了日益增加的数据和计算资源,提高我们为世界环境和所有与我们生活相关的应用领域建立计算模型的能力。

在机器学习技术中,RL具有鲜明的特色。你需要用户的反馈,同时也需要奖励用户。这和下国际象棋很像,你在玩的时候不知道奖励是什么,但是最终你会知道。你知道与AI的交互最后的结果是任务完成。你知道目标是预订航班,但是bot只会说那些可以实现这一目标的话,即便用户可能不明白的是,这个bot正在努力追求最终目标和奖励。

这些进展使得自动语音和自然语言理解触手可及,最终使我们能够解决在许多领域对话理解和对话的问题。基于深度强化学习的AI bot 会理解所有领域的语义,还能够扩展到现在还无法涉足的领域。 人工智能 bot 会采用迭代和反馈回路来自我发展,并趋于完美。人工智能bot的强化学习组件中内置的环境模式,能够自动地且精致地检测、获取、创造并积累新知识,让我们能发展越来越多的智能服务并积累更多经验,特别是像预定、支付等行为导向型的服务。

三种类型的人工智能bot

大体来说,人工智能 bot有三种类型 。第一种是搜寻信息的 bot,其目标是明确的。第二种是要完成某种任务,其中也可能需要搜寻信息,但在短时间内其目标可能是不明确的。你可能问电影院的开放时间。这不是说你的目标只局限在答案上,而是说获得答案是你达到最终目标(看电影)的一个步骤。对于第一种类型,奖赏是明确定义的;而对于第二种类型,奖赏也是相当明确的(或者将会是这样)。

当使用强大的深度强化学习技术进行构建时,以上这两种 bots都有自己定义相当明确的奖励函数(这是强化学习的关键组件)---或者搜寻信息,或者试图完成特定任务 (比如预定机票和酒店)。

第三种类型的AI bot 需要的指导最多,它们是社交 bot ,有时也被叫做聊天 bot 或闲聊 bot 。这种 bot 的奖励函数(用于深度强化学习算法)——先简单称之为「情感智能」——不可能被轻而易举地量化。举个例子,你可能向聊天 bot 寻求建议,或者问一些含糊的问题,比如今天做什么, 或者在同 bot 讨论买人寿保险之前先聊聊天。

处理聊天 bot 十分复杂的奖赏函数需要扩大能力,为了给这种能力提供数学基础,研究界和从业者需要深入调查。这里的目标是将普遍使用的强化学习算法(例如用于 AlphaGo 中的关键学习方法)扩展成更好的算法,这种算法能利用信息理论上的和内在激励的奖励。

在切换到其他试图完成任务的 bot 对话之前,这种奖励捕捉用户在与 bot 的对话中获得的情感上的满足感。对于计算机科学家和电子工程师而言,这是一个前景很好的AI研究领域。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

边缘计算的未来:不仅仅是物联网

什么是边缘计算,为什么我们有这样的结论?为此,我们首先需要了解云和SaaS的发展方向。

1323
来自专栏PPV课数据科学社区

云计算让大数据分析变得更简单

互联网、云计算以及大数据,如今成了三个密不可分的词汇。一般而言,一家互联网公司一定同时是数据公司,反之,不能从数据中获取利益的互联网公司一 定不是一个好的云计算...

4176
来自专栏腾讯大讲堂的专栏

张向东:用互联网思维做智能硬件

本期继续推荐【产品家】第9期《进击的创客——智能硬件大冒险 》第3个分享. 张向东为3G门户网站&Go桌面CEO,他的分享了过去尝鲜、体验智能硬件的一些故事,以...

21110
来自专栏企鹅号快讯

区块链?人工智能?2018 年你应该了解的十大技术趋势

来自:开源中国 https://my.oschina.net/editorial-story/blog/1552089 摘要: 领先的研究和咨询公司Gartne...

2028
来自专栏SDNLAB

云计算十问

Q1:云服务提供商在未来几年中面临的问题是什么? Gartner预测,到2017年公有云服务市场的总体预计将增长18%,将从2017年的2468亿美元增长到20...

6477
来自专栏SDNLAB

企业网络战略之边缘计算:细数它的5大优势

对于希望超越传统基于云的计算架构的限制的公司而言,边缘计算已迅速成为热门。虽然企业级数据中心依旧在现代网络中发挥重要作用,但物联网设备提供的能够在更接近源的地方...

1102
来自专栏云计算D1net

不要仅仅将云计算当成一项技术

现代企业数据中心对云计算基础设施的采用,为CIO们提供了一个机会,挪动悬在头上的几把利剑与最经常被引用(而往往成绩不佳)的IT目标:更短的新产品上市与服务时间,...

3356
来自专栏DevOps时代的专栏

灰度发布,链接 Dev 与 Ops 的正确姿势

序言 在软件吞噬时间的时代,在IT基础设施多样性与分布式趋势中,部署的复杂性与规模日益增加,而大部分的软件崩溃都发生在部署过程中。目前提高部署效率与稳定性成为了...

66510
来自专栏BestSDK

产品狗,为何总是手撕程序猿?

产品原型制作完成了,下一步的工作就是将原型及相关文档交付给开发团队进入到产品开发环节,这时作为产品经理,可以稍微松一口气了。但是!并不是这以后的事情和自己没关系...

2675
来自专栏WeTest质量开放平台团队的专栏

手游精品化的第三年,中国手游市场究竟交出了一份怎样的答卷?

在进入“精品化时代”的第三年,腾讯WeTest出品了《2016中国移动游戏质量白皮书》,与手游从业者分享行业现状,然而总体数据显示,国产手游质量现状依然不容乐观...

1071

扫码关注云+社区

领取腾讯云代金券