EMNLP 2018 详尽参会见闻

AI科技评论

发布于 2018-12-07 11:37:50

8100

发布于 2018-12-07 11:37:50

文章被收录于专栏：AI科技评论

AI 科技评论按：本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议，没去现场的自然可惜，在现场的也容易看花眼。那么事后看看别的研究员的见闻总结，也许会有新的收获呢。

Patrick Lewis 是 UCL 的自然语言处理博士生，同时他也参与 Facebook 人工智能研究院的研究。Patrick Lewis 对人类应当如何设计自然语言处理系统、如何更高效地编码并利用语言背后的有用的知识非常感兴趣。Patrick Lewis 现场参加了 EMNLP 2018，并在个人博客写下了他的参会见闻。AI 科技评论编译如下。（有删节）

我刚刚从布鲁塞尔参加 EMNLP 回来。我们在 EMNLP 上展示了我们的 ShARC 数据集的论文。这次会议的规模和广泛程度真是令人惊叹，有如此之多的聪明人，在做各种令人惊喜的事情。能遇到自然语言处理界的这么多学者，和他们聊天、建立联系也很开心。

下面我尝试把自己的一些体会总结成一篇文章。有趣的东西太多了，我都已经开始有点忘了。我听了超过 60 场论文演讲，看了好多好多论文海报，但是相比整个论文的 549 篇接受论文来说也仅仅只是很小的一部分而已。我先说一说我看到的一些高层次的趋势，然后一块一块地详细说说每一天遇到的值得关注的东西。

总结

我觉得今年的 EMNLP 有好几个有广泛外延的趋势值得注意。尝试更难的任务，广泛地对模型、数据集以及任务进行批判性分析，整个领域内有很多注意力都花在了这些事情上。这其中有件好事，就是耸人听闻的报道少了，没有什么突出的新想法、仅仅一味拼凑新架构的论文也少了。

有一个方面有喜人的增长，我把它称作「负有社会责任的自然语言处理」，它包括的内容从调查学术研究社区内的偏倚一直到流传的说法的验证和假新闻辟谣。我觉得 FEVER Workshop 尤其地成功，而且我会鼓励更多的人参与进来。

我们也看到对抗性方法在 NLP 领域得到越来越多人的关注，从老式的 GAN、到辨别网络、自然语言的对抗样本生成的各方面都有持续的增长。这些研究的体量相对来说还是比较小的，不过我觉得明年的时候我们就会看到遍地都是对抗性方法了。

我们也看到了上下文相关的文本嵌入得到了广泛的应用，尤其是 ELMo。AI2 做了很好的宣传活动，给参会者们送 ELMo 的贴纸和毛茸茸的 elmo 小怪兽玩具。有不少的研究都把 ELMo 作为输入的对比组，而且也确实在很多不同的应用中取得了可以说是全方位的提升。

会议中还出现了好多好多新数据集。基本都是针对越来越细粒度的任务（包括我们自己的 ShARC），也有很多专门在强调难度。「难度筛选器」的概念一下子就变得特别火（对抗性筛选以及其它相关的技巧），就是为了保证数据集没法用现有的方法轻松解决。理论上来说这是一件好事，不过我有点担心，如果我们的处理的过程不小心的话可能会让数据集带有微妙的、基于模型的偏倚。和上面这些相关的是，有好几项研究都以现有的数据集为研究对象，进行近距离的、批判性的分析，试图弄清如果要在这些任务中取得好成绩的话到底需要什么类型的模型；问答任务上的这样的研究尤其多。

我们也看到了常识和单词知识方面的研究热情一直在持续，有一些新的进展，但是我们仍然有很长的路要走。

其它值得一提的还有：重新在语言建模中引入句法和语言学结构，这个方向的研究还在不断成长；大家都更看重模型的可解释性；以及，结构化地限制模型的输出（配合结构化的预测，ILP 等等）。

如果你也到会议现场看了，你也能在这里写下更多东西，而且你看到的趋势可能也会和我的不一样。毕竟这个会议已经很大了，同一时刻有 5 个会场都在进行。

下面我一个一个 session 地说下一我自己觉得尤其有趣或者值得讨论的研究。

FEVER Workshop

这次的 FEVER Workshop 很棒，如果它聚集的热度能保持下去并继续增长就更好了，组织者的工作也做得很好。FEVER 是指论述提取与验证（Fact Extraction and VERification），典型的应用比如热点新闻鉴别真假并辟谣，在近年来全社会都有热烈的 AI 热潮的环境下更有很高的价值。

Tim Rocktaschel：特邀讲者

Tim 讲述了他在 NTP（网络时间协议）、ShARC（超级哈佛架构）以及其他项目中的工作。我熟悉 Tim 的相关工作，所以没有详细做笔记。听众提出了一个非常有洞察力的问题，问 NTP 捕捉的到底是关联性还是语义的相似性，这个问题提到规则归纳无法与关联性相互配合。

《Towards Automated Factchecking: Developing an Annotation Schema and Benchmark for Consistent Automated Claim Detection》，《面向自动事实核查：为一致的自动陈述检测开发一个标注方式和 Benchmark》，作者：Lev Konstantinovskiy, Oliver Price, Mevan Babakar，Arkaitz Zubiaga

Lev 在一家打击虚假信息的慈善机构 FullFact 工作。FullFact 对事实核查的工作流程规如下：

更自动化的监控
更自动化地发现需要核查的陈述
核查陈述
公布
干预

这个项目涉及面向自动陈述检测方面的工作，首先会为 7 种类别建立一个数据集：

非陈述
数量
预测
个人体验
相关/因果关系
操作法律/规则

他们使用来自 ExplosionAI 公司的出色的「prodigy」软件来实现自动化。不幸的是，它的不同标注员之间的一致程度不是很好，不过在定义二进制分类任务时要好得多。数据集由 5571 个句子组成，其中 1570 个句子表示索赔的意思。该模型让系统得到分别为 0.88 、0.80、0.83 的准确率、召回率以及 F 值。

《Shared Task Flash Talks - The Fact Extraction and VERification (FEVER) Shared Task》，《共享任务 Flash Talks—事实提取和验证（FEVER）共享任务》

这个 FEVER 任务有 87 次提交，23 个团队，并让 f1 值从 0.18 提高到 0.53。

大多数团队通常使用三步流水线来完成任务：

文件选择：网元、网络处理器、大小写转换、页面查看、搜索 API
句子选择：几种不同的方法
采用监督训练来分类

《Combining Fact Extraction and Claim Verification in an NLI Model》，《自然语言推断模型中的事实提取与陈述验证相结合》，作者：Yixin Nie, Haonan Chen，Mohit Bansal

作者对这三个步骤的每一步骤都使用了 NSMN 方法，并首次将其运用到任务中。

《UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)》，《UCL 机器阅读组：事实发现的四因素框架（HexaF）》，作者：Takuma Yoneda, Jeff Mitchell, Johannes Welbl, Pontus Stenetorp，Sebastian Riedel

该论文使用了一种流程化的方法：先是文献检索，随后是句子检索，接着是自然语言推断，最后是标签聚合。他们提到大写以及证据是否接近文章的开头是非常重要的特征，并且通过将文章标题添加到句子的自然语言推断模型中，来使用实体共同参照物。

《Multi-Sentence Textual Entailment for Claim Verification》，《用于陈述验证的多语句文本蕴涵》，作者：Andreas Hanselowski, Hao Zhang, Zile Li, Daniil Sorokin, Benjamin Schiller, Claudia Schulz，Iryna Gurevych

这篇论文同样发现，对文档中的实体进行实体链接，从而为附加的证据找到维基百科文章是有用的。

《Team Papelo: Transformer Networks at FEVER》，《Papelo 团队：FEVER 的变换网络》，作者： Christopher Malon

这个团队在自然语言推断这一步骤中使用了 GPT 变换，并且相比其他的团队，他们提交的成果在准确率/召回率两者间的权衡有明显的不同。

《The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity》，《错误信息检测中的数据挑战：源信誉与内容真实性》，作者：Fatemeh Torabi Asr，Maite Taboada.

Fatimeh 通过视频通话进行展示。他们通过验证是否可能使用发布者的信誉来训练系统，从而检测内容的真假，进而构建系统。总体而言，这一基于信誉的数据是有用的，不过相关分析表明其中存在一些问题，这是因为来自大的新闻源的文章很多都被标记为讽刺，而小的新闻源的数很多则有很多被标记为骗局。这个论述处理实验室有一个有意思的网站：https://fakenews.ngrok.io/

特邀报告：《Call for Help: Putting Computation in Computational Fact Checking 》，《求助：在计算机的事实检查中引入算法》，讲者：Delip Rao

Delip 热情洋溢地讲述了现在对于处理假新闻的需求以及我们作为帮助解决这些问题的实践者该怎样承担责任。他针对部分不同的假新闻，详细展示了解决方案：

政治新闻
调查报道新闻
教育新闻
科技（人工智能，用户体验以及其他）新闻
研究新闻

他还指出了假新闻的不同「策划者」和「传播者」：

策划者：名人，犯罪分子/恐怖分子，活动家，政府

传播者：机器程序，「有用的白痴」、阴谋论者、记者

来自谢菲尔德大学 James Thorne 的宣告

James 介绍了 FEVER 2 的规划，它将遵循 Ettinger 等人的方法论——「构建它、打破它、修复它」：

1. 构建它：

用现有的模型和现有的 FEVER 数据构建基线模型；
为模型开发 API。

2. 打破它：

将邀请对抗的一方，他们要生成新的数据攻破基准线系统。基准线系统要通过 API 进行在线测试。攻击者要提交 1000 个最佳的样本用于比赛。根据攻击者能够攻破的系统的数量为他们评分。

3. 修复它：

将公开发布一半的攻击者数据用来训练新的模型，另一半保留用来测试。

这个规划真的很好，我非常开心能在这里看到 FEVER 2 的进程正在向前推进。

Black box NLP（黑盒自然语言处理）

《Context-Free Transductions with Neural Stacks》，《用神经堆栈实现上下文无关变换》，作者：Yiding Hao, William Merrill, Dana Angluin, Robert Frank, Noah Amsel, Andrew Benz，Simon Mendelsohn

作者们调查了神经堆栈增强的神经网络（ NN）是否真的使用堆栈数据架构。他们定义了下面几个不同的任务：

反向字符串——作者们发现，LSTM 控制器没有充分利用堆栈，而是将它用作非结构化存储器。
平衡括号语言建模，这是一个简单的任务，简简单单的网络就能做得很好，但 LSTM 控制器网络可以做得更好。堆栈会被用作非结构化存储器，而非用作堆栈。
奇偶性评估——在每个时间步长计算一个二进制字符串的位奇偶，相当于用新的位来取前奇偶的异或。缓冲架构可以很好地解决这个问题，但是没有缓冲的架构无法实现（随机猜测）。

他们认为，堆栈递归神经网络（RNN）学到了直观和可解释的解决方案来简化算法任务，但通常使用堆栈的方式并不合理。让控制器网络正确地使用堆栈，可能需要给模型增加更多的归纳偏倚。

CoNLL——第二天下午

《Comparing Models of Associative Meaning: An Empirical Investigation of Reference in Simple Language Games 》，《比较不同的关联意义模型：对简单语言游戏中的指代的实证探究》，作者：Judy Hanwen Shen, Matthias Hofer, Bjarke Felbo，Roger Levy

作者们研究了桌游「行动代号」（CodeNames）的简化版本。一个玩家需要从三个单词中选择一个，让另一个玩家再从三个其他单词组成的列表中「也选出一个不是同类的单词」。他们很想发现人类用什么语义资源来构建词汇联想，并调查了 5 种资源：

名词，形容词二元语法联想
Conceptnet5 相似性
词向量余弦距离
LDA 主题建模——这里使用的是词的主题分布之间的欧式距离

他们发现，二元语法系统能最好地预测人类玩家（尤其是 2 号玩家）怎样玩游戏，这表明了「直接的共现分析在联想设置中特别重要」。他们还提到，1 号玩家和 2 号玩家的策略存在差异，这就意味着每个玩家所利用的信息是不同的。

《Sequence Classification with Human Attention》(special paper award)，《利用人类注意力的序列分类》（特别论文奖），作者：Maria Barrett, Joachim Bingel, Nora Hollenstein, Marek Rei，Anders Søgaard

这篇论文获得了心理语言学特别奖，真的很棒！作者们试图通过利用眼动追踪测量的结果，来推动序列分类中的神经注意力更像人类一样工作。他们不直接监控注意力信号，而是通过利用眼动追踪软件所测量得到的注视时间，来将人类阅读新闻文章的注意力作为模型学习的监督信号。这项工作真的很酷，是少数直接使用了人类在做本能工作时所发出信号的工作之一。

他们测试了其情感分类、语法检测和仇恨语言检测的系统，发现使用来自 ZUCO 和 Dundee 语料库的「平均持续固定时间」注视法，能将 F1 的分数提高 0.5%～2%。

Keynote I：《「Truth or Lie? Spoken Indicators of Deception in Speech」》，《「真相还是谎言？口头欺骗的语音指示器」》，讲者：Julia Hirschberg（哥伦比亚大学）

作为会议的第一位主题报告演讲者，Julia 详述了欺骗检测的优化方法，并描述了建立一个包含人类所讲的真话和谎言的干净数据集的过程。然后把人类说真话或者说谎话的录音给别的人类或者给机器学习算法听，讨论的内容也经常是关于敏感话题的。

机器学习系统比人类更善于发现谎言，不过机器和人类倾向于犯不同的错误。他们发现，发现男性说谎更容易，而最善于发现谎言的人，则是那些在开放和一致的人格测试中得分很高的人。

有趣的是，在机器学习模型检测谎言的时候，说谎者的人格类型是一个重要的特征。他们还发现，重复叙述以及音高和「停顿间隔」，同样都是重要的因素。

在下一步工作中，他们计划通过将谎言游戏众包，来获取更多的人类评价，从而更好地理解人类欺骗检测。我想说的是：在这里，压力和语境是超级重要的。当一个人感到紧张、疲倦或烦恼时，他们说谎的方式可能会有很大的不同吗？我们这里同时也存在领域迁移的问题。

EMNLP Session 1

《Reasoning about Actions and State Changes by Injecting Commonsense Knowledge》，《通过增加常识知识来推理动作和状态变化》，作者：Niket Tandon, Bhavana Dalvi, Joel Grus, Wen-tau Yih, Antoine Bosselut，Peter Clark

作者们在论文中提出了 ProPara 数据集。这个数据集的目标是预测一段程序性的自然语言进行过程中的动作和状态变化。这个任务和 BABI 中的某个任务感觉很相似，只不过这次是真的体现成了自然语言的形式；近期发布的 RecipeQA 也是自然语言形式的，不过有更丰富的单词量和更多样化的主题。

这个任务本身是这样的：给模型提供一组句子和一组句子中的实体，模型必须阅读每个句子，然后预测每一个实体的状态是否发生了变化。他们考虑了这些动作：消耗、生产、发生了哪些转换以及发生了哪些运动。有意思的是，他们发现贪婪解码方法可能会带来毫无意义的预测。

比如，如果一个实体已经被摧毁了，那么它就不能继续发生任何后续的变化。作者们的做法是使用了结构化预测。而且这个系统还需要一定的人类常识才能得到比较好的效果。他们发现现有的实体追踪系统，比如循环实体网络（recurrent entity network）在这里的表现并不怎么好；作者们的系统要比循环实体网络提高了 13 分的 F1 分数，在有隐式指代、联合指代和知识检索时最容易出现错误。

《Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation》，《为句子表征评价收集多样化的自然语言推理问题》，作者： Adam Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White，Benjamin Van Durme

这篇论文收集了 13 个现有的不同类型的 NLI（自然语言推理）数据集中多种多样的语义现象，组成了 DNC（Diverse Natural Language Inference collection，多样化自然语言推理集合）数据集，地址见 https://www.decomp.io/。DNC 很大、多样化，涵盖了原型-角色转化、真实性、生成性、常识推理、词义推理等等许多方面的内容，总计有超过 50 万个样本。在建模的过程中，论文作者们发现如果想要在双关语和情感方面取得好的成绩的话，需要先在 MNLI 数据集上做预训练（其后的精细调节是必要的），以及即便他们没法证明这个假说，也仍然取得了很好的 NER 成绩。

《Textual Analogy Parsing: What』s Shared and What』s Compared among Analogous Facts》，《文本模拟解析：在模拟陈述中都有什么是一样的、做了哪些对比》，作者： Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky，Percy Liang

受到总结性语言的自动化视觉效果的设定启发，这项研究中作者们提出了一个新的任务，叫做文本模拟解析（Textual Analogy Parsing）。这项任务需要对陈述进行分解，然后计算不同陈述之间的高阶联系。论文中为这项任务引入了一个新的数据集，并提出了一个新的模型，它通过 ILP 的使用来确保分解出的模拟段落符合这个任务设置带来的限制。又是一篇需要对神经网络的输出进行限制，让它符合逻辑要求的论文。这个模型首先会识别不同的实体、它们的语义类型以及数量，然后模型会建立模拟段落，并用这个模拟段落填充一个模拟框架。模型的评估在有标注的顶点-边-顶点三元组上得到准确率、召回率、F1 分数。

《SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. Rowan Zellers》，《SWAG：一个用于给定信息的常识推理的大规模对抗性数据集》，作者： Yonatan Bisk, Roy Schwartz，Yejin Choi

SWAG 是一个有预谋地设计得非常难的新数据集，它的创建过程使用了对抗性筛选（adversarial filtering）方法。这个任务是，给出一个初始设定问题后，要求模型从 4 个后续的句子中正确地挑出一个句子来，挑出的这个句子要能够看作是对一段自然语言的看上去最自然的、最符合常识的续写。数据集中故意设置了很难分辨的错误选项。这篇论文的创作动机来自于，作者们观察到大多数自然语言推理任务只要求模型有语言学知识，但其实自然语言推理任务本身就应当是一种（有条件的）常识推理任务。这个任务也就和完形填空有很强的关联。对抗性筛选作为一个数据集创建的特点，我们现在也已经见到了好几次了。这个数据集很大，有 11 万个样本，已经超过了我们认为可以算作「大 NLP 数据集」的 10 万样本及格线了。

这个数据集的构造方式很有趣：

连续的两个句子采样自 ActivityNet 比赛数据集里的视频的基于音频的字幕
把其中的第二个句子看作是黄金答案
他们给一个语言模型输入第一个句子，以及第二个句子的开头几个词（第一个名词短语）。然后用语言模型生成很多不同的句子，这些句子也就是候选的错误答案
把这些句子都投入到一个对抗性筛选过程中去（详细介绍请见原论文）
- 随机分成训练集和测试集，找一个模型来训练
- 对于测试集中的样本，找到里面的「很容易就能答对的样本」，然后把它们换成比较难答对的
- 反复重复这个过程，直到收敛
- 最后，候选的错误答案由人类进行标注，确保它们确实是错误答案

EMNLP Session 2

《Adaptive Document Retrieval for Deep Question Answering》，《用于深度问答的自适应文档检索》，作者： Bernhard Kratzwald，Stefan Feuerriegel

我觉得这项研究很有意思，因为它和我们在 Bloomsbury AI 内部做过的实验很像。他们的发现也和我们的很像，但不完全一样。通常来说问答系统都会包含一个信息检索（information retrieval）步骤，收集相关的文档，然后有一个阅读步骤从候选的文档中提取回答。这篇论文的作者们研究了能否为文档检索设定一个自适应的数目，这个数目的选择取决于语料库大小以及问题的类型。他们的研究动机来自于，他们的实验表明，随着语料库大小增大，首位答案的召回率会变得不稳定，而且需要用到比较多的文档；但是对于小的语料库，比较多的文档反倒会导致准确率下降，因为模型被许多可疑的答案干扰了。在 Bloomsbury AI 的时候我们就发现，在找包含回答的那个自然段的时候，我们的文本阅读器的表现总是比信息检索的表现要好，这个答案干扰对于我们不是什么问题。

EMNLP Session 3

《Generating Syntactic Paraphrases》，句法释义的生成，作者是. Emilie Colin & Claire Gardent

两名作者研究了句法释义的产生。研究工作表明在句法约束条件下的句法生成将带有独特的句法释义，而这些句法能够从数据、文本或两者的组合中生成。该任务被视为基于输入与句法约束为条件的结构化预测。同样的输入可以映射到多个输出，且保证每个输出可以满足不同的句法约束。它们一共有 4 项任务：

输入 RDF 三元组并生成文本。
输入一个句子和一个约束，并生成文本。
输入文本与 RDF 三元组，并生成含有 RFD 三元组的文本。
输入文本与 RDF 三元组，并生成删去 RDF 三元组的文本。

结果显示，模型在所有的任务上表现良好，且语法约束极大地提升了 BLEU 得分。

EMNLP Session 4

我参加了主题为视觉问答（VQA）的第 4 个 session，可惜我不是很懂这个。会议将 RecipeQA 归纳到多模态 QA 里，这让我觉得很有意思，不过这个成果截止目前还没有得到充分的研究。

《RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes.》，RecipeQA：多模态理解食谱的挑战数据集，作者是. semh Yagcioglu、Aykut Erdem、Erkut Erdem 和 Nazli Ikizler-Cinbis

作者留意到了当今业界需要更多 QA 挑战数据集的趋势。他们借助食谱网站上的资料构建了多模式程序化 RecipeQA 数据集。里头的烹饪步骤分别附上了配图，因此可视作多模式问答数据集。数据集只有中等大小（36K 个问-答对），大部分问题的形式是有多种选择的完形填空。数据集中同时包含了视觉 QA 和文本 QA。跟 ProPara（一个类似的实体状态跟踪数据集）的对比让我们发现了一些很有趣的事情。那就是这个数据集包含更多的实例，然而每个文档上的标签却要少得多。

EMNLP Session 5

我们通过 poster 在这个环节向公众展示我们的 ShARC 工作成果。尽管开展的时间有点早（尤其是经过前一天特别有意思的行业招待活动后！），以及 Poster 的位置不太理想，然而我们还是得到了了前来参观的人们的积极反馈。我们希望能有更多人参与到我们的任务中来，很快我会在博客中更新一篇介绍 ShARC 数据集与解决任务的文章！

EMNLP Session 6

《emrQA: A Large Corpus for Question Answering on Electronic Medical Records》，emrQA：电子病历问答的大型语料库，作者是. Anusri Pampari、Preethi Raghavan、Jennifer Liang 和 Jian Peng

作者利用来自 i2b2 数据集的专家临床记录注释。他们使用了半自动的数据集创建方法，从而得以根据电子化的医疗档案创建包含了 40 万个问题-证据对的大规模医疗 QA 数据集。他们追加发布了 100 万个提问-逻辑形式对。此外，还增加一些在 SQuad 等流行机器理解数据集中不存在的任务。这些任务更加注重计算与时间顺序推理，这对于医学问题的回答来说至关重要。他们是按以下的方式去构建数据集：

先收集相关领域的问题，然后将问题形成模板。
将模板与经过专家注释的逻辑形式进行关联。
使用现有的数据注释集来批量生成问题和逻辑形式模版，进而获取答案。
目前可供他们使用的问题模板只有 680 个，尚不足以用来大范围生成自然语言问题。

《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.》，HotpotQA：用于多样化、具有可解释性的多跳问答的数据集，作者是. Yang Zhilin Yang、Peng Qi、Saizheng Zhang、Yoshua Bengio、William Cohen、Ruslan Salakhutdinov 和 Christopher D. Manning

HotPotQA 是一套全新的 QA 数据集，试图涵盖许多种不同的现象，其中包括：多跳阅读、基于文本的推理、不同领域、可解释性以及比较问题。HotPotQA 巧妙的地方在于，数据集中标注出了哪些句子包含了回答问题所需要的事实，因此也要求模型不仅仅要回答问题，还要能用「引用」用于回答问题的论述。这些论述可以作为模型训练阶段的监督。它们将多跳问题分为两大类：

类型 1：通过推断完成第二步任务
类型 2：通过检查多个限定内容来获取答案

所谓的比较问题也很新（但这个归纳总觉得还是有些武断了，但它们的「多跳」属性是确定的，因为模型必须回答关于被比较的事物最终与答案进行比较的问题）。

模型表明辅助论述在训练过程中起到了重要作用，然而他们的 BiDAF ++ 基线的表现与人类相比还是有点差了。

《Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering.》，盔甲能够进行导电吗？一套全新的 Open Book 问答数据集，作者是. Todor Mihaylov，Peter Clark，Tushar Khot 和 Ashish Sabharwal

又有一套小规模的 AI2 挑战数据集要介绍给大家——OpenBook 数据集。数据集的主要任务是利用部分上下文进行多跳推理。它提供了论述（以开放查询的形式）和一个问题，这个问题是一个需要运用论述和常识知识才能正确回答的多项选择问题。该任务介于阅读理解和开放式 QA 之间。数据集的体量非常小（5900 个问题对应 1,326 条论述的开放查询），因此需要进行一些迁移学习。和 Swag 一样，他们在构建数据集时会测试现有的系统是否表现不佳，来使数据集变得更具有挑战性。这虽然在理论上听起来很棒，但我怀疑它是否会引入难以被检测到的偏差因素。

《Evaluating Theory of Mind in Question Answering》，评价问答中的心智理论，作者是. Aida Nematzadeh，Kaylee Burns，Erin Grant，Alison Gopnik 和 Tom Griffiths

本文中的研究表明了一个有趣的变化。好的问答需要进行推理，而不仅依赖信息的查找。作者想知道模型是否使用了正确的信息来回答问题？亦或纯粹在作弊。BABI 任务不会检测关于信念的推理。因此，作者设计了一套用于评估模型对于信念推理能力的任务，该任务被称作「Sally Anne Tasks」。任务描述了一个相当简单的情境，这里头 Sally 和 Anne 将与物体产生互动，但有些时候她们并不知道彼此之间当下的状态。我举个例子：

Sally 把球放到盒子里，
Sally 离开了房间，
Anne 把球从盒子里取出并放入袋里。
然后 Sally 重新回到了房间。

当模型被问到「莎莉要上哪去找球呢？」，正确的答案需要模型理解 Sally 始终相信球放在她一开始置放的位置，也就是盒子，而不是袋子。

他们测试了几种不同的信念任务：

一阶真实信念：例如 Sally 观察到了一个物体运动之后对它的信念
第一顺序错误信念：例如 Sally 未观察到一个物体运动时对它的信念
第二个错误的信念：例如 Anne 对于 Sally 信念的想法

他们使用了 memn2n、一个多观察者模型（具有 sally、anne 与观察者的独立记忆）、Entnet 以及关系网络（relnet）。最终结果显示一阶信念对于模型来说更难理解，对人类（成人）来说就不难理解，具备外显记忆的模型基本上会在信念问题上出现失误，而 Entnet 和 relnet 则是在记忆问题上出现失误。看来具有递归性质的模型是构建高阶信念模型的必备。

EMNLP Session 7

我去参观了一些小型 posters。有几个让我觉得非常有意思，在这里推荐其中的三个：

《Generating Natural Language Adversarial Examples.》，生成自然语言的对抗性样本，作者是 Moustafa Alzantot、Yash Sharma、Ahmed Elgohary、Bo-Jhang Ho、Mani Srivastava 和 Kai-Wei Chang
《Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion.》，在翻译中迷失：通过回溯条件学习双语单词映射，作者是. Armand Joulin、Piotr Bojanowski、Tomas Mikolov、HervéJégou 和 Edouard Grave
《Bayesian Compression for Natural Language Processing.》，用于自然语言处理的贝叶斯压缩，作者是. Nadezhda Chirkova、Ekaterina Lobacheva 和 Dmitry Vetrov

Keynote II：《Understanding the News that Moves Markets》，新闻报道如何推动市场前进，主讲人是 Gideon Mann（Bloomberg，L.P。）

这是一场很有意思的演讲，提醒了我们为何有责任创建一个强大 NLP 系统，并且在社会上一些至关重要的系统里进行采用。然而我们应该如何建立合适的检查与平衡机制，以确保 nlp 系统中的缺陷不会引发巨大的社会动荡？说真的，市场对于财经新闻的极速反应让人既感到敬畏又恐惧。

EMNLP Session 8

生成领域会议：这是一个非常高质量的 session。虽然我对该领域了解的不算多，但会议里有很多具有启发性的工作，有一些我已经想好了如何在工作中应用。

《Integrating Transformer and Paraphrase Rules for Sentence Simplification.》，集成 Transformer 和释义规则用于句子简化，作者是. Sanqiang Zhao、Rui Meng、Daqing He、Andi Saptono 和 Bambang Parmanto

本文任务试图在保留原始含义的情况下对语言进行简化，以便于儿童或非母语人士理解。他们使用了 Transformer 模型和简单的 PPDB KB 中的集成规则来增强简化效果，并选择更加精确的简化规则。

模型整合规则的方式是引入一个新的损失，它会让使用简单的规则的可能性最大化，另外也会让一个序列生成损失变小。另外，他们还利用了一个记忆简化规则的框架来强化模型。

《Learning Neural Templates for Text Generation.》，学习神经模版用于文本生成，作者是 Sam Wiseman、Stuart Shieber 和 Alexander Rush

这项工作涉及到利用条件神经半隐马尔可夫模型进行文本生成的学习模板。他们（正确地）认为，通过自然语言模板生成的文本比直接神经序列生成的文本更具备可解释性和可控性。他们使用 wikiBio 数据集进行文本生成，其中 wikidata 信息框通常用于对信息框的自然语言描述上。这是一个很酷的原创工作，使用了各种旧时热门动态编程算法构建的应用程序。

《Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation.》用于神经翻译和文本生成的伪参考多参考训练，作者是. Renjie Zheng、 Mingbo Ma 和 Liang Huang。

本文的工作重点在于尽可能为翻译与生成任务生成更多的参考资料，基本上与释义生成任务没什么不同。文中陈述了一个（通常避而不谈的、让人难以启齿的）明显的事实，即存在指数级的有效的、保留了原语义的示意/参考转换句子。他们提出可以用点阵构建方法生成更多这样的句子。他们首先展示了如何通过「硬性对齐」来进行点阵构建，1，通过合并相同的单词压缩现有的参考（也许是递归式地？），2，遍历这个点阵，为所有从节点出发一直到点阵结尾的所有可能路线创建一个伪参考。

最后，他们通过语言模型中的语义相似性来扩展「硬性对齐」，以便该「对齐」同样可以用于同义词。该方法的缺点是产生的句子结构与原出处的差异不是很大。

EMNLP Session 9

这里我穿插参与了几项不同的会议议程以及海报环节。

《Noise Contrastive Estimation and Negative Sampling for Conditional Models: Consistency and Statistical Efficiency.》用于噪声对比估计与负抽样的条件模型：一致性和统计效率，作者是. Zhuang Ma 和 Michael Collins

这个（主要是理论上的）工作主要着眼于噪声对比估计排序、分类损失以及和 MLE 的一致性。作者发现基于排序的损失相比分类损失，在更多任务上更加具有一致性（仅在假设分区函数保持不变的情况下具有一致性），不过两者都会随着 K 值的增加而更加接近 MSE。

《Pathologies of Neural Models Make Interpretations Difficult》，神经模型的病理学使解释变得困难，作者是. Shi Feng、Eric Wallace、Alvin Grissom II、Mohit Iyyer、Pedro Rodriguez 和 Jordan Boyd-Graber

这项工作试图探究一旦阅读理解问题因为丢失单词而「缩短」之后会发生什么。他们展示了一些例子，表明即使他们将问题简化为单个词仍然可以保持相同的答案。这个方法与一般常用的创建「对抗者」（不断对输入增加扰动，直到输出发生变化）的方法正好相反。他们在判别答案时会删除了一个在他们看来「最不重要」的词。他们认为，随着输入变得不明确，输出的置信度应该随之降低，并且概率分布也会更松散。他们举了一些例子：

SQUAD：「特斯拉把钱花在什么地方？」>「钱」（0.78 - > 0.91）
VQA：「这朵花是什么颜色」>「花」（0.83 - > 0.82）

他们最终提出了一种解决问题的方法，即是通过生成无用的样本，然后训练模型遇到缩短的问题时把输出的熵最大化。

《Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification.》，用于跨语言情感分类的对抗性深度平均网络，作者是. Xilun Chen、Yu Sun、Ben Athiwaratkun、Claire Cardie 和 Kilian Weinberg

没有别的语言比英语有更多的情绪数据。本文试图通过利用资源丰富的语言来处理其他语言中的情感任务，作者试图仅使用单语数据来学习语言的固定特征。他们在嵌入语言中使用了双语/多语言词嵌入和语言鉴别器网络。

EMNLP Session 10

这段时间里我都在问题回答的分会场。

《Joint Multitask Learning for Community Question Answering Using Task-Specific Embeddings.》，使用任务特定嵌入进行社区问答的联合多任务学习，作者是. Shafiq Joty、LluísMàrquez 和 Preslav Nakov

作者试图利用图形模型（很高兴能在 QA 中看到这个）融合社区问答的三个任务来处理社区问答所面临的问题。在社区问答中他们定义的三个任务分别是：

找到与新问题类似的问题
找到与新问题相关的答案
确认一个帖子中某个问题的回答是否是一个好的答案

由于三个任务之间互相能够受益，因此作者使用符合联合规范的 CRF 将三者进行建模，并使用 rmsprop 进行训练，最后再通过 LoopyBP 进行推理演算。

《What Makes Reading Comprehension Questions Easier?》，是什么使得阅读理解问题变得容易？，作者是. Saku Sugawara、Kentaro Inui、Satoshi Sekine 和 Akiko Aizawa

本文与我在 EMNLP 期间看到其他一些工作中反复提到的趋势有关，其中包括有点相关但读起来却不是很有趣的最佳短篇论文奖。作者试图评估不同 QA 数据集的难度。本文定义了一些启发式方法来回答问题，并断言如果能够通过简单的启发式方法来回答问题，就说明这个问题很简单。

在一些数据集中，寻找与问题最相似的句子是一个行之有效的回答问题的方法。Triviaqa、race、mctest、arc-e 和 arc-c 都是公认的非常具有挑战性的数据集，而其中 Qangaroo 则被发现有富有变化性，即是简单的问题会非常简单，而困难的问题则会非常困难。作者也充分思考了到底是这些问题回答起来有难度，还是这些问题就无法回答。

总的来说，TriviaQA、Quangaroo 和 ARC 被发现拥有相当多「无法解决」的问题

EMNLP Session 11

《The Importance of Being Recurrent for Modeling Hierarchical Structure》，《探究对层次化的结构建模时，循环结构的重要性》，作者：Ke Tran, Arianna Bisazza，Christof Monz

作者们专门探究了 LSTM 和 Tranformer 模型在那些对层次化结构有专门要求的任务中的建模表现。他们观察了模型生成的语言中宾语-动词一致性以及逻辑推理的表现。他们得到了一个有意思的结论，和大多数人的直觉以及研究社区里大家积极投入的方向相反，他们发现基于 LSTM 的模型总是能以一个很小的、但是足以察觉到的差别胜过 Tranformer 模型。可别忘了，Tranformer 模型是能有力地发现句子中不同的词之间的相互联系的。这个结果很难给出合理的解释，但是理应得到更多的研究，以及尝试复现他们的结果。

最佳论文奖

《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks》，《阅读理解需要阅读多少文本？对热门 benchmark 的重点调查》，作者：Divyansh Kaushik，Zachary C. Lipton

这篇论文研究的课题很热门、很简单、也很自洽。作者们仅仅用问答的上下文或者问题来训练模型，有意识地不让模型获得理论上解决任务所必须的信息。今年 EMNLP 中还有几篇论文也思考了类似的问题，作者们正确地引用了前几年中的自然语言推理方面的类似的研究成果，以及其它相关设置的论文，很棒。

《Linguistically-Informed Self-Attention for Semantic Role Labeling》，《用于语义角色标注的考虑语言学信息的自我注意力方法》，作者：Emma Strubell, Patrick Verga, Daniel Andor, David Weiss，Andrew McCallum

这是一项很棒的研究，他们的演讲也非常棒。作者们首先指出，对于互联网规模的自然语言处理应用部署，快速、准确、鲁棒是非常关键的特性。作者们研究了语义角色标注问题，他们通过增加针对语言现象的多任务学习技术，在领域内和领域外都取得了明显的进步。他们通过引入一种新形式的自我注意力机制，「关注句法的自我注意力」（syntactically informed self attention），对 Tranformer 模型架构进行了增强。其中的一个注意力计算点会用来参与到单词的句法计算点中。除此之外，他们用了 Tranformer 模型的不同层来计算其它各种语法内容，比如姿态标注、论述检测、语义角色扩张以及标签

《Phrase-Based & Neural Unsupervised Machine Translation》，《基于词语的、无监督的神经网络机器翻译》，作者：Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer，Marc』Aurelio Ranzato

在这个压轴演讲中，Guillaume 讲解了这项（现在已经名声远扬的）无监督机器翻译研究。这个过程可以被总结成三个步骤：

初始化：两个语言分布可以通过无监督地学习词组到词组、或者词到词的翻译进行粗略的对齐
语言建模：在每个语言中分别独立地学习一个语言模型，它可以用来为句子降噪
反向翻译：从一个已有的源句子开始，把这个句子通过现有模型翻译成目标语言，然后通过源语言到目标语言的翻译对这个句子进行重构。其中的差异就可以用来训练目标语言到源语言的翻译模型。

他们也展示了用他们的框架做风格转换的研究的预览，真的超级棒。

哇，终于写完了。好大一摞论文啊。

via：https://www.patricklewis.io/post/emnlp2018/， AI 科技评论编译

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-11-07，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他