学界 | Yoshua Bengio等人提出MILABOT:强化学习聊天机器人

选自arXiv

作者:Iulian V. Serban等

机器之心编译

参与:路雪、李泽南

The Alexa Prize 是亚马逊在对话人工智能领域中发起的一项竞赛,本届比赛的奖金为 250 万美元,将于 11 月决出优胜者。本文介绍的是蒙特利尔大学 Yoshua Bengio 团队(MILA Team)参与本次比赛的 Chatbot 设计。

对话系统和聊天智能体(包括聊天机器人、个人助理和声控界面)在现代社会中越来越普遍。比如,移动设备内置的个人助理、电话中的自动技术支持、卖东西的在线机器人(从时尚服饰、化妆品到法律咨询、自助医疗服务)。但是,构建智能聊天机器人仍然是人工智能研究中未解决的一个重要问题。

2016 年,亚马逊主办了一场国际大学竞赛,旨在构建社交机器人——一款能够与人类就热门话题进行连贯可爱的语音对话的智能体,话题涉及娱乐、时尚、政治、体育、技术等领域。社交机器人通过亚马逊的 Echo 设备进行自然语音交谈(Stone & Soper 2014)。本文描述了该模型、实验和我们团队开发的最终系统(MILABOT)。我们参与该比赛的主要动机是帮助推动人工智能的研究。该竞赛提供了一个特别的机会,用真实用户在相对宽松的设置中对先进的机器学习算法进行训练和测试(即自然环境中的机器学习)。用真实用户进行实验在人工智能社区是独特的,大部分工作的实验在固定数据集(如标注数据集)和软件仿真(如游戏引擎)进行。此外,亚马逊提供的计算资源、技术支持和资金支持也对我们在扩展系统、测试先进机器学习方法等工作上帮助很大。这些支持帮助我们在 Amazon Mechanical Turk 平台通过众包方式处理了 20 万个标签,并维护系统运行所需的 32 个 Tesla K80 GPU。

我们的社交机器人基于大型综合系统,该系统结合深度学习和强化学习。我们开发了一套新的深度学习模型用于自然语言检索和生成,包括循环神经网络、序列到序列模型和隐变量模型,并在竞赛提供的上下文中对其进行评估。这些模型连接成一个整体,生成一个对话响应的候选集合。我们进一步使用强化学习(包括价值函数和策略梯度方法)训练该系统,以从综合系统的模型中选择一个合适的响应。尤其是,我们提出了一种新型强化学习步骤,基于对马尔科夫决策过程的评估进行。训练在众包数据上进行,真实用户和该系统初代版本之间的互动被记录下来。训练后的系统在真实用户进行的 A/B 测试实验中取得了巨大的进步。

在竞赛半决赛中,我们表现最好的系统在级别 1 − 5 上获得 3.15 的用户平均分,手工干预的状态和规则数量最少,且未参与非聊天活动(如玩游戏或猜谜)。最佳系统的表现可以媲美半决赛中的部分顶级系统。该系统平均每次对话包括 14.5 − 16.0 轮。用户和系统的反复交流产生的这个改进说明我们的系统可能是参与竞赛的所有系统中互动性最强的系统。最后,如果有额外的数据,该系统还能够继续改进,因为几乎所有的系统模块都是可学习的。

图 1:对话管理器控制流程。

该系统包含 22 个响应模型,包括基于检索的神经网络、基于生成的神经网络、基于知识库的问答系统和基于模板的系统。候选模型响应的示例如表 1 所示。

表 1:由模型生成的对话与候选语句。最终系统的回答语句为粗体。

模型架构

评分模型是一个 5 层神经网络,第一层作为输入,包含 1458 个特征。第二层包含 500 个隐藏单元,通过将线性变换和修正的线性激活函数(Nair&Hinton,2010;Glorot 等,2011)应用于输入层单元进行计算。第三层包含 20 个隐藏单元,通过对前一层单元应用线性变换来计算。类似于矩阵分解,这一层将 500 个隐藏单元压缩至 20 个。第四层包含 5 个输出单元,它使用了概率(即所有数值都是正值同时和为 1)。这些输出单元是通过对前一层单元应用线性变换,然后进行 softmax 变换来计算的。该层对应于 Amazon Mechanical Turk 上获得的标签。第五层是通过对第三层和第四层中的单元应用线性变换来计算的最终输出标量。该模型如图 2 所示:

图 2:评分模型的计算图,基于行为价值函数和统计策略参数化用于模型选择策略。该模型包含一个带有 1485 个特征的输入层、一个带有 500 个隐藏单元的隐藏层、带有 20 个隐藏单元的隐藏层、带有 5 个输出可能性的 softmax 层(对应论文章节 4.3 中的 5 个 AMT 标签)、一个标量值输出层。虚线箭头表示一个 skip 连接。

论文:A Deep Reinforcement Learning Chatbot

论文链接:https://arxiv.org/abs/1709.02349

我们展示了 MILABOT:蒙特利尔算法研究实验室(MILA)为参与亚马逊 Alexa 大奖赛而开发的深度强化学习聊天机器人。MILABOT 能够与人类就流行的闲聊话题进行语音和文本交流。该系统包括一系列自然语言生成和检索模型,如模板模型、词袋模型、序列到序列神经网络和隐变量神经网络模型。通过将强化学习应用到众包数据和真实用户互动中进行训练,该系统学习从自身包含的一系列模型中选择合适的模型作为响应。真实用户使用 A/B 测试对该系统进行评估,其性能大大优于竞争系统。由于其机器学习架构,该系统的性能在额外数据的帮助下还有可能继续提升。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

AI系统能帮助合成新材料

麻省理工学院的三位材料科学家及其同事发表的论文中,描述其 AI系统可通过科学论文和提取“食谱”合成特定类型的材料。 2017年11月,美国麻省理工学院的三位材料...

3054
来自专栏数据科学与人工智能

【学库】用Python做深度学习

若是你对深度学习只有比较浅的认识,想知道深度学习是什么?深度学习的来龙去脉?为什么会出现深度学习这个说法和技术?作者在第一章做了回答。

2092
来自专栏机器之心

学界 | FAIR等机构联合提出IntPhys:你的智能系统的物理知识,比得上婴儿吗?

选自arXiv 机器之心编译 参与:Nurhachu Null、刘晓坤 婴儿和许多动物对物体的相互作用有直观理解,并能逐步掌握物体恒常性、因果关系、重力、形状不...

2764
来自专栏AI星球

吾爱NLP(3)—我对NLP的理解与学习建议

简单来说,NLP = Nature Language Process = 自然语言处理 ≈ 语言信息(文本/语音)+机器学习 。

2542
来自专栏新智元

【重磅】Facebook全新机器翻译超越谷歌,用CNN替代RNN创世界纪录(开源)

【新智元导读】 Facebook今天发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷...

2894
来自专栏新智元

【AI计算的新摩尔定律】3.5个月翻一倍,6年增长30万倍

2395
来自专栏量子位

推荐系统中的冷启动和探索利用问题探讨

作者:文辉 | 达观数据 量子位 已获授权编辑发布 1.前言 互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站对于推荐系统...

8367
来自专栏ATYUN订阅号

入门指南:ANN如何使用嵌入概念化新想法

我们所感知到的一切都是大脑基于过去经历和从其他媒介获得的知识,经过概率运算得出的最好预测——这样的说法对你来说或许很新鲜,而且听起来好像是对直觉的否定,毕竟我们...

1194
来自专栏用户2442861的专栏

机器学习系列(7)_机器学习路线图(附资料)

http://blog.csdn.net/han_xiaoyang/article/details/50759472

2231
来自专栏机器之心

前沿 | DeepMind提出SPIRAL:使用强化对抗学习,实现会用画笔的智能体

选自DeepMind 作者:Ali Eslami等 机器之心编译 参与:路雪 近日,DeepMind 发布博客,提出一种结合了对抗训练和强化学习的智能体 SPI...

3838

扫码关注云+社区

领取腾讯云代金券