赛尔推荐 第0期

各位读者,大家好。自即日起,我中心公众号(哈工大SCIR)将推出“赛尔推荐”栏目。

该栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。

每篇荐文将包含推荐人简评,推荐人研究方向等。如对论文有疑问或者想进一步交流,欢迎大家联系推荐人共同讨论。

1

推荐组:CR

推荐人:张伟男(研究方向:人机对话,自然语言处理)

论文题目:A Knowledge-Grounded Neural Conversation Model

作者:Marjan Ghazvininejad, Chris Brockett, Ming-Wei Chang, Bill Dolan, Jianfeng Gao, Wen-tau Yih, Michel Galley

发表会议/期刊:AAAI 2018

论文主要相关:人机对话,神经网络模型,知识工程

简评:在传统的Encoder-Decoder对话生成框架中,融入知识库作为中间件,生成相关性更好、信息更丰富的回复。这篇文章的亮点在于在完全数据驱动的端到端框架下,融入外部知识做生成内容的控制,当然完全数据驱动以及端到端训练本身已经不算什么新意,但将外部知识表示成若干的Facts并通过一个额外的记忆网络编码后加入到解码过程中则是文章主要的创新点。实验设计中规中矩,对比系统略显单薄。

论文链接

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/02/A_Knowledge_Grounded_Neural_Conversation_Model.pdf

2

推荐组:LA

推荐人:刘一佳(研究方向:句法分析、语义分析)

论文题目:Annotation Artifacts in Natural Language Inference Data

论文主要相关:自然语言推理

简评:这是一篇即将发表在NAACL 2018上的论文。第一作者Suchin Gururangan来自华盛顿大学语言系,其余作者包括Omer Levy、Sam Bowman、Noah Smith等知名学者。本文提出一个值得讨论的问题:自然语言推理(NLI)数据在构造的过程中存在一系列的人工模式,这种模式的直接后果是模型可以在不需要知道推理前提(premise)的条件下就可以以67%的准确率判断推理假设(hypothesis)是否是蕴含(entailment)中立(neural)或对立(contradiction)。文中值得关注的地方包括:如何分析数据,发掘其中的人工模式;如何在发掘了人工模式的基础上重新审视现有模型。另外,一个更泛化的问题是:我们的模型是真的完成我们对于相应任务的目标,还是在单纯”玩弄“数据?

论文链接:https://arxiv.org/pdf/1803.02324.pdf

3

推荐组:QA推荐人:施琦(研究方向:问答系统)论文题目:Dynamic Coattention Network for Question Answering

发表会议/期刊:ICLR 2017

论文主要相关:基于文档集的问答(Document-based Question Answering)简评:这是一篇发表于ICLR 2017上的文章,最近在arxiv上做了更新。本文在传统的seq2seq框架的encoder部分中加入了co-attention机制去融合表示问题和文档信息,然后再通过Bi-LSTM对已融合的信息和文档再次融合,得到最终表示结果;Decoder部分通过HMN预测结果,并通过LSTM保存历史预测信息进行动态迭代。实验部分采用EM和F1来评价。文章主要亮点主要仍在于模型的创新,encoder中的co-attention机制以及decoder中的动态迭代机制。通过动态迭代机制,可以避免模型陷入局部最优解从而得到错误的答案。

论文链接:https://arxiv.org/pdf/1611.01604.pdf数据集链接:https://rajpurkar.github.io/SQuAD-explorer/

4

推荐组:RC推荐人:赵森栋(研究方向:文本挖掘)论文题目:A causal framework for explaining the predictions of black-box sequence-to-sequence models发表会议/期刊:EMNLP 2017论文主要相关:sequence-to-sequence模型,预测的可解释性,机器翻译简评:这是一篇理论性很强的文章,作者来自于著名的MIT CSAIL(麻省理工人工智能实验室)。这篇文章的立意非常有意思,因为我们都知道,深度学习的可解释性是很多人的一块心病。本文试图解释神经网络的内部工作机制,旨在研究深度神经网络sequence-to-sequence模型的输入和输出之间的因果关联,进而解释输入序列和输出序列之间的映射关系。

很多NLP任务都用到的结构预测模大多数不具有可解释性。例如,很多面向NLP的深度学习模型中有大量的参数和复杂的结构。这些黑盒系统虽然在很多NLP任务上都获得了最好的结果,但是它们的结果却不可解释。如果模型有很好的解释能力,那么好处是很明显的。例如可以提高我们对模型的信任,可以更清楚的进行错误分析进而对模型进行更有针对性的优化。例如,在医疗决策系统中,不可解释、不能被医学专家验证的预测是不被接受的。如果无法理解系统输入是如何映射到输出上的,那么对于错误来源的分析也会是很大的挑战。

目前对于可解释性的研究,已有的工作主要从两个角度来进行:模型的可解释性,即使结构本身可解释;和预测的可解释性,即解释模型的特定预测。寻求让模型完全透明化是不太可能的。因此,在这篇文章中作者提出了一个针对预测可解释性的新方法。这个方法会返回一个“解释”,由一组输入和输出符号组成,并且输入和输出是因果相关的。这种因果依赖通过分析模型输入上的扰动产生的效果来获得。对于每个句子,用一个变异的auto encoder来产生变化,句子的变化都是语义相关的。由此推断出的因果依赖(区间估计)会产生一个在符号上的二部图(例如,词序列到词序列的连接二部图)。“解释”可以被推导为这个二部图上的最小割k-分划。

论文链接:http://aclweb.org/anthology/D17-1042

本期责任编辑: 丁 效

本期编辑: 刘元兴

“哈工大SCIR”公众号

主编:车万翔

副主编: 张伟男,丁效

责任编辑: 张伟男,丁效,赵森栋,刘一佳

编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波,孙卓

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180316B0MIER00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券