专栏首页专知【QA论文笔记】问答对排序新方法,层次循环编码器与主题聚类结合

【QA论文笔记】问答对排序新方法,层次循环编码器与主题聚类结合

【导读】这篇发表在自然语言处理领域顶级会议的NAACL的文章,提出了一种新的端到端神经网络架构,用于对候选回答进行排序。该文章提出的模型,文本分别按照词和块的级别进行编码,有效地捕捉了整句话的含义。在此基础之上,增加了话题聚类模块,从回答中提取语义信息,将回答进行分组,进一步提升了排序的性能。

【NAACL 2018 论文】

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

简介



最近神经网络已经在许多机器学习领域取得了巨大成功,如图像分类,语音识别,机器翻译,聊天机器人,问答等领域。其中,自动问答(QA)任务一直被认为是人工智能的主要目标。

在商业领域,通常通过使用预先组织的知识库和/或使用基于信息检索(IR)的方法来处理QA任务。而在学界,研究人员不断研究QA系统核心技术:问答对排序任务。排序任务是指,从知识库或基于检索的模块中选择候选回答中的最佳答案。有许多端到端的神经网络试图来解决这一任务。这些作品侧重于匹配句子级别的文本对。因此,他们在理解更长的文本(如多回合对话和解释性文档)方面存在局限性,文本变长时,排序性能随之下降。为了解决这个问题,这篇文章的创新点在于:

• 引入分层递归对偶编码器(HRDE)模型来计算问答对之间的匹配度来确定排名。通过使用分层体系结构将文本从单词级别编码为块级别,HRDE可以防止在理解更长的文本时性能下降,同时支持其他最先进的神经网络模型。

提出了一个潜在主题聚类(LTC)模块来从目标数据集中提取潜在信息,并将这些额外的信息应用于端到端的训练。该模块允许每个数据样本找到最近的话题聚类,从而帮助神经网络模型分析整个数据。 LTC模块可以与任何神经网络相结合,作为额外信息的来源。这是一种利用潜在话题集群信息进行QA任务的新颖方法,特别是通过将HRDE和LTC的组合模型应用于QA对排名任务。

该论文在Ubuntu对话语料库和三星官方网站抓取的真实QA数据上对提出的模型进行评估,可以看出达到了state of art 的效果。

模型



HRDE(Hierarchical Recurrent Dual Encoder )

首先解释模型中的几个词语,解释之后,模型的结构以及为什么这样设计就很容易理解了。

Dual :Dual是“对偶”的意思,在排序任务中,需要分别对问题和候选回答会进行编码,这就体现了“Dual”

Recurrent:循环,代表RNN循环神经网络,在文本处理时,充分考虑了上下文的关系,在对当前词语进行编码的时候,还会加入到前几个词的编码信息,并加入一些遗忘机制(LSTM,GRU)等。

其实用循环神经网络编码问答对前人已经做过(Lowe 2015),而由于RNN的遗忘的机制,针对长文本编码时往往不能顾及全局的信息,因此,本文的作者提出了分层结构。

• Hierarchical 所谓的分层结构,就是首先将一整个回答首先按照句子或其他方式切分成几个部分,首先对各部分的词分别进行编码,然后在结合整个词的编码作为整个部分的编码,完成了所谓的分层编码的效果。这种做法避免了在处理长文本时由于“遗忘”而导致排序性能下降的问题。

模型的框图如下所示,右边蓝色框中的即展示了分层编码: 表示第i个部分的中的t个词, 表示对第i个部分中第j个词用RNN编码的结果。 表示在对词编码的基础上,对这部分进行编码的结果。

LDT( Latent Topic Clustering )



而为了进一步提高排序的性能,在HRDE的基础上,还进行了分组。这一操作只应用于回答。在HRDE输出的基础上,首先将输入与代表K个“主题”的向量做内积,并softmax,得到该回答与所有主题的“相似度”(或“权值?”),然后用“相似度”和K个主题”构造“输入的向量中的主题特征,即按照相似度对“主题“进行加权求和,和原始输入拼接在一起,作为下一步排序的输入。

LDT的结构图如下所示(蓝色虚线框):

实验结果



数据集

文章中使用了Ubuntu 数据集和从三星官网上爬的数据来验证模型。数据的特点如下所示:

句子的样例如下所示,可见回答都是较长的文本:

在三个数据集上的实验结果如下所示,可见加入了分层结构对实验结果有十分明显的提升,而后期主题聚类又在此基础上有微弱的提升。

参考链接:

https://arxiv.org/pdf/1710.03430.pdf

更多教程资料请访问:专知AI会员计划

-END-

本文分享自微信公众号 - 专知(Quan_Zhuanzhi),作者:专知内容组

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • (含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(三)

    本次整理的论文同样主要偏向于Open-Domain QA,其中主要涉及到阿拉伯语的问答(这个可以尝试转变成中文的,因为这个是有源码的)、开放问答系统搭建、开放...

    ShuYini
  • AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展

    在本篇提前看中,我们重点聚焦 AAAI 2020 中与问答系统(Q&A)相关的文章。问答系统是自然语言处理领域的一个重要研究方向,近年来各大国际会议、期刊都发表...

    机器之心
  • 这里有 300 篇 Python 与机器学习类原创笔记

    主要包括计算机科学中基本的算法与数据结构,结合算法思想和Leetcode实战,总结介绍。

    好好学java
  • 学界 | 视觉问答全景概述:从数据集到技术方法

    选自arXiv 机器之心编译 参与:Jane W,吴攀 印度理工学院 Akshay Kumar Gupta 近日发布了一篇论文,对视觉问答方面的数据集和技术...

    机器之心
  • 【转】CCF2020问答匹配比赛:如何只用“bert”夺冠

    ccf问答匹配比赛也结束了一段时间了,这篇算是一个下篇吧,总结一下后期优(夺)化(冠)的心路历程。标题中的“bert”指的是bert-base系列模型,包括be...

    致Great
  • 学界 | NLP年度盛宴EMNLP/CoNLL 2018最精彩论文精选(摘要+评论)

    每年,全球最顶尖的NLP研究者们会在这两个大会上展示最前沿的NLP科研成果。然而,动辄上千篇的论文却令很多关注NLP领域最新动态的小伙伴望而却步。

    zenRRan
  • 学界 | NLP年度盛宴EMNLP/CoNLL 2018最精彩论文精选(摘要+评论)

    每年,全球最顶尖的NLP研究者们会在这两个大会上展示最前沿的NLP科研成果。然而,动辄上千篇的论文却令很多关注NLP领域最新动态的小伙伴望而却步。

    大数据文摘
  • 知识图谱新研究:DrKIT——虚拟知识库上的可微推断,比基于BERT的方法快10倍!

    对于知识图谱的研究在最近几年呈现逐渐热门的趋势,在今年的ICLR2020上,就涌现出了大量相关研究,其中,来自CMU和Google的研究者提出了一种新的将语料库...

    AI科技评论
  • 【CVPR演讲】LeCun 谈深度学习技术局限及发展(157PPT)

    【新智元导读】Facebook AI 实验室负责人Yann LeCun 在 CVPR2015 演讲,提到了深度学习在计算机视觉领域的应用及局限,比如缺乏理论、缺...

    新智元

扫码关注云+社区

领取腾讯云代金券