(含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(三)

ShuYini

发布于 2020-03-26 10:58:23

8470

发布于 2020-03-26 10:58:23

文章被收录于专栏：自然语言处理(NLP)论文速递

喜欢我们，点击上方AINLPer，关注一下，极品干货即刻送达！

还在学习/工作的你，注意身体，早点休息，晚安~~

引言

本次整理的论文同样主要偏向于Open-Domain QA，其中主要涉及到阿拉伯语的问答（这个可以尝试转变成中文的，因为这个是有源码的）、开放问答系统搭建、开放问答效率提升、基于web表的开放问答方法、开放问答模型泛化能力研究等，最后还有一篇是关于RC(Reading Comprehension)的paper，个人觉得不错所以也放到这里面了。（四篇含源码）

微信下载论文不方便，你可以直接回复：QA003 进行打包下载。

最后，帮作者点个在看吧，谢谢~~

正文开始

First Blood

1、TILE: Neural Arabic Question Answering

Author: Hussein Mozannar , Karl El Hajal , Elie Maamary , Hazem Hajj

Paper: https://arxiv.org/pdf/1906.05394v1.pdf

Code: https://github.com/husseinmozannar/SOQAL

论文简述： 为了解决缺乏阿拉伯语问答数据集的问题，提出了阿拉伯语阅读理解数据集（ARCD），该数据集由维基百科文章中的1395个问题组成，以及斯坦福问答数据集（Arabic SQuAD）的机器翻译。阿拉伯语开放域问答系统（SOQAL）由两部分组成：（1）使用分层TF-IDF方法的文档检索器；（2）使用预先训练的双向变换器BERT的神经阅读理解模型。

2、TILE: Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering

Author: Rajarshi Das , Shehzaad Dhuliawala , Manzil Zaheer , Andrew McCallum

Paper: https://arxiv.org/pdf/1905.05733v1.pdf

Code: https://github.com/rajarshd/Multi-Step-Reasoning

论文简述： 本文提出了一种开放域问答的新框架，实现了检索者和阅读者之间的迭代交互。该框架只要求访问阅读器的Token级隐藏表示。检索器使用快速近邻搜索来扩展到包含数百万段落的语料库。门控循环单元根据阅读器的状态在每一步更新查询，重新构造的查询用于检索器对段落重新排序。最后，展示了本文多步推理框架在各种大型开放域数据集(triviaq -unfiltered、QuasarT、SearchQA和SQuAD-Open)上应用于两种广泛使用的阅读器体系结构(DrQA和BiDAF)时，带来了较好的结果。

3、TILE: Densely Connected Attention Propagation for Reading Comprehension

Author: Yi Tay , Luu Anh Tuan , Siu Cheung Hui , Jian Su

Paper: https://arxiv.org/pdf/1811.04210v2.pdf

Code: https://github.com/vanzytay/NIPS2018_DECAPROP

论文简述： 本文提出了一种新的紧密连接的阅读理解神经结构DecaProp (Connected Attention Propagation)。该模型有两个明显的特点。首先，本模型密集地连接了网络的所有成对层，在所有层次上建立了通道和查询之间的关系。然后，该网络中的密集连接器是通过注意力来学习的，提出了一种新型的双向注意连接器(BAC)，用于在整个网络中有效地建立连接。

4、TILE: Ranking Paragraphs for Improving Answer Recall in Open-Domain Question Answering

Author: Jinhyuk Lee , Seongjun Yun , Hyunjae Kim , Miyoung Ko , Jaewoo Kang

Paper: https://arxiv.org/pdf/1810.00494v1.pdf

Code: https://github.com/yongqyu/ranking_paragraphs_pytorch

论文简述： 由于开放域QA需要从文本语料库中检索相关文档来回答问题，其性能在很大程度上取决于文档检索器的性能。然而，由于传统的信息检索系统不能有效地获取包含答案的高概率文档，从而降低了QA系统的性能。为此本文引入段落Ranker，它对检索到的文档段落进行排序，以获得较高的答案召回率和较少的噪声。实验发现使用段落Ranker对段落进行排序并聚合答案，在四个开放域QA数据集上的得到了比较好的结果。

5、TILE: Break It Down: A Question Understanding Benchmark

Author: Tomer Wolfson , Mor Geva , Ankit Gupta , Matt Gardner , Yoav Goldberg , Daniel Deutch , Jonathan Berant

Paper: https://arxiv.org/pdf/2001.11770v1.pdf

Code: None

论文简述： 理解自然语言问题需要将问题分解为计算答案所需的步骤。在本文中，本文介绍了一个问题分解意义表示(QDMR)。QDMR由一系列步骤组成，这些步骤通过自然语言表达，是回答问题所必需的。我们开发了一个众包管道，表明QDMR可以大规模注释，并发布了Break数据集，该数据集包含超过83K对问题。

6、TILE: Open Domain Question Answering Using Web Tables

Author: Kaushik Chakrabarti , Zhimin Chen , Siamak Shakeri , Guihong Cao

Paper: https://arxiv.org/pdf/2001.03272v1.pdf

Code: None

论文简述： 在本文中，使用web表开发了一种开放域QA方法，这种方法既适用于factoid查询，也适用于非factoid查询。本文主要思想是将基于深度神经网络的查询和表之间的语义相似性与量化文档中表的优势以及表中信息质量特性结合起来。

7、TILE: Contextualized Sparse Representation with Rectified N-Gram Attention for Open-Domain Question Answering

Author: Anonymous

Paper: https://openreview.net/pdf?id=ryxgegBKwr

Code: None

论文简述： 本文提出了一种有效的方法来学习一个高度上下文化的单词级的稀疏表示，利用校正的自我注意力加权邻近的n-gram。为了提高记忆效率，本文在训练过程中对内积空间进行核化，而不需要显式地映射大型稀疏向量。通过在SQuADopen和CuratedTrec中以高达97倍的速度进行推理，不仅显著提高了短语检索的准确性（超过4%），而且优于所有其他（基于流水线的）开放域QA方法，从而证明了所学习稀疏表示的有效性。

8、TILE: What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge

Author: Kyle Richardson , Ashish Sabharwal

Paper: https://arxiv.org/pdf/1912.13337v1.pdf

Code: None

论文简述： 开放域问答（QA）涉及到一些潜在的知识和推理挑战，但模型在接受基准任务培训时是否真正学习了这些知识？为了研究这一点，本文引入了几个新的挑战任务，来探索最新的QA模型是否具有关于单词定义和一般分类推理的繁泛化知识，这两个方面对于更复杂的推理形式来说都是基本的，并且在基准数据集中很普遍。