清华大学周昊:和你聊聊AI顶会优秀论文背后的故事

来源:AI科技大本营

智能观 转载

2018 年 7月 13 日——19 日,ICJAI 2018 在瑞典首都斯德哥尔摩顺利召开。IJCAI(International Joint Conference on Artificial Intelligence)人工智能领域顶级学术会议之一,涵盖领域包括机器学习、图像识别、语音技术、自然语言处理、视频技术等,对全球人工智能行业有着巨大的影响力。

IJCAI 的评审历来都很严格,今年投稿数量更是达到了 3470 篇,接收论文 710 篇,接收率只有 20.5%(同比 2017 年, 2540 篇投稿,接收 660 篇,约26%的接收率);来自国内的论文更是近达半数之多,可见国内研究的活跃。与往年不同,今年 IJCAI 没有评选出Best Paper,但是选出了7篇 Distinguished Paper ,其中有 4 篇都是来自国内的研究成果。

今天,我们为大家采访了本次 IJCAI 大会 Distinguished Paper《Commonsense Knowledge Aware Conversation Generation with Graph Attention》(具有图注意力的常识知识感知会话生成系统)的第一作者——来自清华大学的博士研究生周昊,和大家分享其中更多的故事。

其实在去年,周昊和所在的课题组就有一项研究成果——Emotional Chatting Machine(情绪聊天机)获得了国内外的高度关注,MIT 科技评论、卫报和 NIVIDIA 相继进行了追踪和报道。

来源:MIT Technology Review

来源: MIT Technology Review

计算机无法衡量对话内容的情感、对话人的情绪,也就无法和人进行共情。而一个没有情商的聊天机器人反而会成为一个话题终结者。周昊和他所在的课题组就开发了一个能够评估对话内容情感并作出相应回应的聊天机器人,这项工作打开了通往具有情感意识的新一代聊天机器人的大门。

他们在研究中所提出的情绪聊天机(ECM),不仅可以在内容上给出适当的反应,而且能在情感上给出适当的反应(情绪一致)。这项工作已经在 TensorFlow 中实现,我们在文末附上了关于这项研究工作的论文和 GitHub 访问链接。

IJCAI 会议回来后,我们约到了周昊,请他谈了谈这次获奖的一些感悟、研究成果和心得,在此分享给读者们。

以下为对话内容。

Q:今年国内在 ICJAI 会议上的成果很多,是什么时候收到通知被评为 Distinguished Paper的?还记得当时是什么心情吗?

周昊:我是在开幕式的时候才知道被评为Distinguished Paper 的,之前没有收到任何通知,当时就觉得比较幸运吧,论文能被评审认可。

Q:现在 NLP 领域中还有很多有待突破的问题,大家也都很想知道关于更有价值的研究方向?你觉得未来新的研究方向会有什么?

周昊:在会议上听了 LeCun 的演讲《 Learning World Models: the Next Step Towards AI》,感觉 World Models 或者 Commonsense Knowledge 在机器学习中的应用可能会成为新的研究方向。

Q:你在这次的研究工作中也是引入了 Commonsense Knowledge (常识知识),从提出到实现的这个研究过程,遇到过什么问题吗?可以和大家分享一下吗?

周昊:当时最早开始想做知识驱动的对话生成模型,是因为对话或者语言其实是一种知识交流的媒介,而现有的从大规模语料中学习的生成式对话模型尽管能学习到不错的语法知识,但是对语言背后本质的知识却缺少建模能力。所以我们设计了这个引入常识知识的对话模型想利用知识驱动对话生成。

我们当时的想法是利用知识推理的一种方式,可以从用户问题的知识子图出发,选择一度邻域的子图中概率最大的实体作为下一个关键节点,继续拓展其一度邻域的子图选择概率最大的实体,这样一步步推理下去会得到一个推理路径,作为我们对话生成的知识信息,这也是我们人类进行知识推理的方式。

然而在实际工作中,我们发现无论是常识知识图还是对话语料中都存在许多噪声,并且数据稀疏性也是个大问题。所以我们最后选择了一度邻域子图进行数据集的过滤与创建。感兴趣的同学可以继续探索知识推理在对话中的应用。

Q:能用一句话来介绍一下图注意力机制吗?其本质是什么?

周昊:图注意力机制是一种层次化的概率模型,通过不同层次知识图的概率计算,可以提取知识图中不同层次的知识,同时生成知识的推理路径。

Q:知识图会成为 NLP 的未来吗?

周昊:知识在nlp中已经有了很多应用,未来应用会更广泛,至于是否会以知识图的方式加入进来取决于技术和模型的发展了。

Q:去年你的另外一篇论文关于 Emotional Chatting Machine 的研究也是获得了非常高的关注,MIT科技评论、卫报和NIVIDIA也进行了专门的报道,再到今年获得 Distinguished Paper,有什么研究经验可以让大家借鉴吗?

周昊:在研究方面,我比较喜欢发现一些新的问题。大致过程就像做产品一样:

首先要明确需求(需求最好是重要且容易定义的)。

然后寻找资源构造数据(数据没有必要十分旁大,因为数据处理,模型训练会浪费很多时间,从小数据做起验证想法,一步步扩展也是不错的思路)。

接着是从需求出发设计模型(可以将人的先验知识如任务的定义、语言学的资源融入到模型中)。

最后就是对比实验(不同会议偏好的实验也不同,比如 AAAI、IJCAI 之类 AI 的会议比较偏向能够解释说明 motivation 的实验,ACL、EMNLP 之类 NLP 的会议比较偏向统计性指标、多组 baseline 对比以及 ablation test 等实验)。通过实验结果的反馈不断迭代修改整个流程,最后得到一个满意的结果。

Q:大家都非常关注也想更多了解关于清华大学 NLP 的研究,可以给我们的读者介绍一下清华 NLP 研究课题组吗?

周昊:清华大学进行 NLP 研究的课题组有很多,研究方向各不相同。我们组(指导老师:朱小燕、黄民烈)主要研究的是交互式人工智能,即通过对话、交互体现出来的智能行为,通常智能系统通过与用户或环境进行交互,并在交互中实现学习与建模。我们组的主要研究方向有深度学习、强化学习、问答系统、对话系统、情感理解、逻辑推理、语言生成等。其他如孙茂松老师组的诗词生成,刘洋老师组的机器翻译,等等。如果有对 NLP 研究感兴趣的同学们欢迎来各个课题组交流。

最后我们在周昊的指导意见下对他的获奖论文进行了解读,希望可以给大家的研究与学习带来灵感,有所收获。

摘要

常识知识对于自然语言处理来说至关重要。在本文中,我们提出了一种新的开放域对话的生成模型,以此来展现大规模的常识知识库是如何提升语言理解与生成的。若输入一个问题,模型会从知识库中检索相关的知识图,然后基于静态图注意力机制对其进行编码,图注意力机制有助于提升语义信息,从而帮助系统更好地理解问题。接下来,在语句的生成过程中,模型会逐个读取检索到的知识图以及每个图中的知识三元组,并通过动态的图注意力机制来优化语句的生成。

我们首次尝试了在对话生成中使用大规模的常识知识库。此外,现有的模型都是将知识三元组分开使用的,而我们的模型将每个知识图作为完整的个体,从而获得结构更清晰,语义也更连贯的编码信息。实验显示,与当前的最高水平相比,我们提出的模型所生成的对话更为合理,信息量也更大。

简介

在许多自然语言处理工作中,尤其在处理常识知识和客观现象时,语义的理解显得尤为重要,毋庸置疑,它是一个成功的对话系统的关键要素,因为对话互动是一个基于“语义”的过程。 在开放域对话系统中,常识知识对于建立有效的互动是很重要的,这是因为社会共享的常识知识是大众乐于了解并在谈话中使用的信息。

最近,在对话生成方面有很多神经模型被提出。但这些模型往往给出比较笼统的回复,大多数情况下,无法生成合适且信息丰富的答案,因为若不对用户的输入信息、背景知识和对话内容进行深度理解,是很难从对话数据中获取语义交互信息的。当一个模型能够连接并充分利用大规模的常识知识库,它才能更好地理解对话内容,并给出更合理的回复。

举个例子,假如模型要理解这样一对语句,“Don’t order drinks at the restaurant , ask for free water” 和“Not in Germany. Water cost more than beer. Bring your own water bottle”, 我们需要的常识知识可以包括(water,AtLocation,restaurant),(free, RelatedTo, cost) 等。

在此之前,有些研究已经在对话生成中引入了外部知识。这些模型所用到的知识是非结构化的文本或特定领域的知识三元组,但存在两个问题:

第一,它们高度依赖非结构化文本的质量,受限于小规模的、领域特定的知识库。

第二,它们通常将知识三元组分开使用,而不是将其作为每个图的完整个体。

因此,这类模型不能基于互相关联的实体和它们之间的关系来给出图的语义信息。

为解决这两个问题,我们提出了常识知识感知对话模型(Commonsense Knowledge Aware Conversational Model, CCM),以优化语言理解和开放域对话系统的对话生成。我们使用大规模的常识知识来帮助理解问题的背景信息,从而基于此类知识来优化生成的答案。

该模型为每个提出的问题检索相应的知识图,然后基于这些图给出富有信息量又合适的回复,如图 1 所示。为了优化图检索的过程,我们设计了两种新的图注意力机制。静态图注意力机制对检索到的图进行编码,来提升问题的语义,帮助系统充分理解问题。动态图注意机制会读取每个知识图及其中的三元组,然后利用图和三元组的语义信息来生成更合理的回复。

图1:两种模型的对比。第一行回复由我们的模型(引入常识知识)生成,第二行回复由 Seq2Seq 模型(未引入常识知识)生成。

总地来说,本文主要做出了以下突破:

该项目是首次在对话生成神经系统中,尝试使用大规模常识知识。有了这些知识的支撑,我们的模型能够更好地理解对话,从而给出更合适、信息量更大的回复。

代替过去将知识三元组分开使用的方法,我们设计了静态和动态图注意力机制,把知识三元组看作一个图,基于与其相邻实体和它们之间的关系,我们可以更好地解读所研究实体的语义。

常识对话模型

2.1 背景:Encoder - Decoder 模型

译者注:Seq2Seq 模型与经典模型有所不同的是,经典的 N vs N 循环神经网络要求序列要等长,但我们在做对话生成时,问题和回复长度往往不同。因此 Encoder-Decoder 结构通过 Encoder 将输入数据编码成一个上下文向量,再通过 Decoder 对这个上下文向量进行解码,这里的 Encoder 和 Decoder 都是 RNN 网络实现的。

2.2 任务定义与概述

2.3 知识解析器

静态图注意力

2.4 知识感知生成器

动态图注意力

译者注:在语言生成过程中,引入动态图注意力机制,模型可以通过当前解码器的状态,注意到最合适的知识图以及对应的知识三元组,再基于此来选择合适的常识与词汇来生成回复,从而使对话的信息量更大,内容更加连贯合理。与很多动态优化算法相类似,状态不断地更新与反馈,随之自适应地调整下一步决策,在对话生成系统中引入该机制有效地改善了生成结果。

实验

3.1 数据集

常识知识库

我们使用语义网络 (ConceptNet) 作为常识知识库。语义网络不仅包括客观事实,如“巴黎是法国的首都”这样确凿的信息,也包括未成文但大家都知道的常识,如“狗是一种宠物”。这一点对我们的实验很关键,因为在建立开放域对话系统过程中,能识别常见概念之间是否有未成文但真实存在的关联是必需的。

常识对话数据集

我们使用了来自 reddit 上一问一答形式的对话数据,数据集大小约为 10M。由于我们的目标是用常识知识优化语言理解和生成,所以我们滤出带有知识三元组的原始语料数据。若一对问答数据与任何三元组(即一个实体出现在问题中,另一个在答复中)都没有关联,那么这一对数据就会被剔除掉。具体数据概况可见表 1。

表1: 数据集与知识库概况

3.2 实验细节

我们的模型是在 Tensorflow 下运行的。编码器与解码器均有两层 GRU 结构,每层有 512 个隐藏单元,它们之间不会共享参数。词嵌入时的长度设置为 300。词汇表大小限制在 30000。

我们采用了 Adam 优化器,学习率设置为 0.0001。具体代码已共享在 github上,文末附有地址。

3.3 对比模型

我们选取了几种合适的模型作为标准来进行对比:

Seq2Seq,一种 seq2seq 模型,它被广泛应用于各种开放域对话系统中。

MemNet,一个基于知识的模型,其中记忆单元用来存储知识三元组经 TransE 嵌入处理后的数据。

CopyNet,一种拷贝网络模型,它会从知识三元组中拷贝单词或由词汇表生成单词。

3.4 自动评估

指标:我们采用复杂度 (perplexity)来评估模型生成的内容。我们也计算了每条回复中的实体个数,来估量模型从常识知识库中挑选概念的能力,这项指标记为 entity score.

结果:如表 2 所示,CCM 获得了最低的复杂度,说明 CCM 可以更好地理解用户的问题,从而给出语义上更合理的回复。而且与其他模型相比,在对话生成中,CCM 从常识知识中选取的实体最多,这也可以说明常识知识可以在真正意义上优化回复的生成。

表2:基于perplexity和entity score的模型自动评估

3.5 人工评估

我们借助于众包服务 Amazon Mechanical Turk,从人工标记过的数据中随机采集 400 条数据。我们基于此来将 CCM 和另外几个模型对同一问题生成的回复进行对比。我们有三个对比模型,总计 1200 个问答数据对。

指标:我们定义了两项指标:appropriateness 在内容质量上进行评估(基于语法、主题和逻辑);informativeness 在知识层面进行评估(基于生成的答复是否针对问题提供了新的信息和知识)。

结果:如表 3 所示,CCM 在两项指标下都比另外几个模型表现更为突出。其中 CopyNet 是将知识三元组分开单独使用的,这也证明了图注意力机制的有效性。

很明显,在 OOV (out-of-vocabulary) 数据集的表现上, CCM 比 Seq2Seq 突出得多。这也进一步说明常识知识在理解生僻概念上很有效,而 Seq2Seq 并没有这个能力。对于 MemNet 和 CopyNet,我们未发现在这一点上的差别,是因为这两个模型都或多或少引入使用了常识知识。

表3: 基于appropriateness(app.)和informativeness (inf.) 的人工评估

3.6 案例研究

如表 4 所示,这是一个对话示例。问题中的红色单词 "breakable" 是知识库里的一个单词实体,同时对于所有模型来说,也是一个词汇表以外的单词。由于没有使用常识知识,且 "breakable" 是词汇表之外的单词,所以 Seq2Seq 模型无法理解问题,从而给出含有 OOV 的回复。MemNet 因为读取了记忆中嵌入的三元组,可以生成若干有意义的词汇,但输出中仍包含 OOV。

CopyNet 可以从知识三元组中读取和复制词汇。然而,CopyNet 生成的实体单词个数比我们的少(如表 2 所示),这是因为 CopyNet 将知识三元组分开使用了。相比之下,CCM 将知识图作为一个整体,通过相连的实体和它们之间的关系,与信息关联起来,使解码更加结构化。通过这个简单的例子,可以证明相比于其他几个模型,CCM 可以生成更为合理、信息也更丰富的回复。

表 4: 对于同一问题,所有模型生成的回复

总结和未来的工作

在本文中,我们提出了一个常识知识感知对话模型 (CCM),演示了常识知识有助于开放域对话系统中语言的理解与生成。自动评估与人工评估皆证明了,与当前最先进的模型相比,CCM 能够生成更合理、信息量更丰富的回复。图注意力机制的表现,鼓舞了我们在未来的其他项目中也将使用常识知识。

最后非常感谢周昊这次给我们的读者带来的精心分享!也希望在今后研究与工作的道路上,周昊同学都可以一帆风顺!也希望今后有机会和我们大本营的读者分享更多的研究心得与技术干货!如果大家对周昊的研究工作或 NLP 研究领域有任何想交流的问题、想法或建议,都可以在下方给我们留言,一起交流学习!

1.关于论文《Commonsense Knowledge Aware Conversation Generation with Graph Attention》

论文链接:

http://coai.cs.tsinghua.edu.cn/hml/media/files/2018_commonsense_ZhouHao_3_TYVQ7Iq.pdf

GitHub地址:

https://github.com/tuxchow/ccm

2.关于论文《Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory》

论文链接:

http://coai.cs.tsinghua.edu.cn/hml/media/files/aaai2018-ecm.pdf

GitHub 地址:

https://github.com/tuxchow/ecm

—完—

想知道AI加教育领域有哪些最新研究成果?

想要AI领域更多的干货?

想了解更多专家的“智能观”?

请前往:www.智能观.com。

关于我们

我们关注AI+教育。致力于提供高附加值的知识,以帮助每一位老师和我们的读者不断学习并提高技能。

我们努力让发表的每一篇文章都具有最佳质量,以满足读者的需求。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180807A1JLB700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券