专栏首页杨熹的专栏盘点 2018 年自然语言处理 10 个激动人心的想法

盘点 2018 年自然语言处理 10 个激动人心的想法

这篇文章翻译自 KDnuggets, 作者: Sebastian Ruder, 是 insight_centre 的 NLP PhD,aylien 的研究员

这里收集了 2018 年 NLP 令人兴奋和有影响力的 10 个想法,而且会在未来有更多应用可能性, 其中有一些并不是趋势,但可能在 2019 年变得更加“时髦”。


1) Unsupervised MT

在 ICLR 2018 上有两篇无监督的 MT 论文,它们的结果不错,但与监督系统相比仍然很低:

Unsupervised Machine Translation Using Monolingual Corpora Only

Unsupervised Neural Machine Translation

在 EMNLP 2018 也有两篇论文,显著改进了他们以前的方法:

[Phrase-Based & Neural Unsupervised Machine Translation] (https://arxiv.org/abs/1804.07755)

Unsupervised Statistical Machine Translation

**Phrase-Based & Neural Unsupervised Machine Translation(EMNLP 2018): **

这篇文章在提炼无监督MT的三个关键方面都做得很好:良好的初始化,语言模型,通过反向翻译进行反向任务建模。 这三个在其他无监督的场景中也是很有用的,例如反向任务建模在 CycleGAN 中就有应用,它可以强制执行循环一致性。 该论文进行了大量的实验,并评估了两种资源较少的语言对,即 English-Urdu 和 English-Romanian。将来也许能够在更多低资源语言上看到更多应用。

下图为无监督MT的三个关键:A)两个单语数据集 B)初始化 C)语言建模 D)反向翻译:

(Lample et al., 2018)


2) Pretrained language models

使用预训练语言模型可能是 2018 最重要的NLP趋势,有一系列令人难忘的方法:ELMo,ULMFiT,OpenAI Transformer和BERT。

Deep contextualized word representations(NAACL-HLT 2018)

这篇引入 ELMo 的论文备受赞誉,除了令人印象深刻的实证结果之外,还有细致的分析部分,它可以梳理出各种因素的影响,并分析表征中捕获的信息。

下图左边可以看出在单词意义消歧分析(WSD)方面效果不错,两边都证明了一个 LM 执行的WSD和POS任务的性能就可以接近最新技术水平了。

(Peters et al., 2018)


3) Common sense inference datasets

将常识纳入 NLP 模型是今后发展的最重要方向之一。 然而,创建好的数据集并不容易,甚至流行的数据集都显示出很大的偏差。 2018 年已有一些执行良好的数据集,旨在教授模型一些常识,例如来自华盛顿大学的Event2Mind和SWAG。

Visual Commonsense Reasoning(arXiv 2018)

这是第一个视觉QA数据集,其中包含每个答案的基本原理的解释。此外,问题需要复杂的推理。

创作者竭尽全力解决可能的偏见,通过确保每个答案的先验概率为25%(每个答案在整个数据集中出现4次,3次作为错误答案,1次作为正确答案)。这需要使用计算相关性和相似性的模型来解决约束优化问题。

下面看看数据的呈现: 给定图像,区域列表和问题,模型要回答问题,并提供解释其答案为何正确的理由

(Zellers et al., 2018)


4) Meta-learning

元学习对于训练数据数量有限的问题最有用,在小镜头学习,强化学习和机器人学中有很多用处 最突出的例子是:模型不可知的元学习(MAML), 但NLP中的成功应用却很少见。

Meta-Learning for Low-Resource Neural Machine Translation(EMNLP 2018)

作者使用MAML来学习良好的初始化,在翻译任务中,将每个语言对视为一个单独的元任务。 元学习在NLP中最有用的设置可能是适应低资源语言。特别是在 结合多语言转移学习(如多语言BERT),无监督学习上元学习是一个很有前途的方向。

下图是转移学习,多语言转移学习与元学习的区别。实线:初始化的学习,虚线:微调的路径

(Gu et al., 2018)


5) Robust unsupervised methods

当语言不同时,无监督的跨语言嵌入方法就会崩溃,这是转移学习中的常见现象 其中源和目标设置之间的差异(例如,域适应中的域,连续学习中的任务和多任务学习)会导致模型的恶化或失败。 因此让模型对这些变化更加健壮是重要的工作。

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings(ACL 2018)

本文没有使用元学习初始化,而是用他们对问题的理解来制定更好的初始化 特别是,它们将两种语言中具有相似分布的单词配对,这是使用领域专业知识和分析洞察力来使模型更加健壮的一个很好的例子。

下图是三个单词的相似度分布,可以看出等价翻译('two'和'due')的分布比非相关词('two'和'cane' - 意思是'dog')更相似

(Artexte et al., 2018)


6) Understanding representations

在理解表示方面也有很多研究进展。特别是,“诊断分类器”(用于测量学习表示是否可以预测某些属性)已经变得非常普遍。

Dissecting Contextual Word Embeddings: Architecture and Representation(EMNLP 2018)

本文非常好地理解了预训练语言模型表示。 他们精心设计了无监督和监督任务,广泛研究了单词的学习和跨度表示。 结果发现:预训练表示学习与低层的低级形态,低层的句法任务,高层的长范围语义任务相关 这确实表明预训练的语言模型已经捕获了与ImageNet上预训练的计算机视觉模型相似的属性。

下图为 BiLSTM 和 Transformer 的预训练表示在(从左到右)POS标记,选区解析和无监督共指消解任务上的每层性能

(Peters et al., 2018)


7) Clever auxiliary tasks

可以看到越来越多的多任务学习中需要精心选择的辅助任务。 要获得良好的辅助任务,必须能够轻松访问数据。 其中一个最突出的例子是 BERT,它使用了下一句话的预测,效果很好,(已经在Skip-ideas和最近的Quick-ideas中使用过)

Syntactic Scaffolds for Semantic Structures(EMNLP 2018)

本文提出了一个辅助任务,通过预测每个跨度相应的句法成分类型来预先跟踪跨度表示。 尽管在概念上很简单,但辅助任务使得跨度级预测任务有很大改进,例如语义角色标记和共指消解。 这篇论文表明,在目标任务(这里:跨度)所要求的水平上学习的专业表征是非常有益的。

(Swayamdipta et al., 2018)


8) Combining semi-supervised learning with transfer learning

随着迁移学习的发展,预训练表示可以与许多半监督学习互补。例如,自我标记方法,一种特殊的半监督学习方法

Semi-Supervised Sequence Modeling with Cross-View Training(EMNLP 2018)

本文表明,概念上非常简单的想法,如果对输入的不同角度的预测与主模型的预测一致的话,就可以在各种任务集上获得不错的效果。 这个想法类似于 word dropout ,但允许利用未标记的数据使模型更加健壮。 与其他自整合模型相比 如 mean teacher,,它是专门针对特定的NLP任务而设计。

(Clark et al., 2018)


9) QA and reasoning with large documents

问答(QA)也有很多发展,有一系列新的QA数据集。除了会话质量保证和执行多步推理之外,还有质量保证最具挑战性的问题是综合叙述和信息量巨大。

The NarrativeQA Reading Comprehension Challenge(TACL 2018)

本文基于整个电影剧本和书籍回答问题,提出了一个具有挑战性的新QA数据集。 虽然此任务对于当前方法来说仍然遥不可及,但是提供了一种模型方案,使用摘要(而不是整本书)作为上下文,选择答案(而不是生成它),以及使用IR的输出。这些技巧使任务更加可行,并使模型逐步扩展到完整设置。

(Kočiský et al., 2018)


10) Inductive bias

Inductive bias,例如CNN中的卷积,正则化,dropout等机制,是神经网络模型的核心部分,它们作为正则化器并使模型更具样本效率。 然而,提出广泛有用的归纳偏差并将其纳入模型是一项挑战。

Linguistically-Informed Self-Attention for Semantic Role Labeling(EMNLP 2018)

本文有很多不错的内容:

在联合语法和语义任务上训练transformer ; 能够在测试时注入高质量的解析; 以及域外评估。

它还通过训练一个注意力的head来关注每个token的句法parents,从而规范 Transformer's multi-head attention,使其对语法更加敏感。

未来我们可能会看到更多关于Transformer's multi-head attention的例子,它们被用作辅助预测器,专注于输入的某些特定方面。

(Strubell et al., 2018)


学习资源: https://www.kdnuggets.com/2019/01/10-exciting-ideas-2018-nlp.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何应用 cvxopt 中的 solvers.lp

    我们在求解石头剪子布的纳什均衡问题时会用到 cvxopt 里面的这个函数:solvers.lp(c=c, G=G, h=h, A=A, b=b)。

    杨熹
  • 《百面机器学习》笔记-特征工程相关面试题2

    例如,特征a有m个取值,特别b 有n个取值,将二者组合就有m*n个组成情况。这时需要学习的参数个数就是 m×n 个

    杨熹
  • 图解什么是 Transformer

    Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文...

    杨熹
  • 讲讲你不知道的窗口函数

    我们都知道 SQL 中的聚合函数,聚合函数顾名思义就是聚集合并的意思,是对某个范围内的数值进行聚合,聚合后的结果是一个值或是各个类别对应的值。如下所示:

    张俊红
  • Gartner 10大预测:The Future Is a Digital Thing(30PPT)

    大数据文摘
  • 2018年最值得关注的15大技术趋势

    ? 本文转自36氪 通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难。但是我们还是可以从过往的一些显著数据指标来推测新的一年里科技行业的发展趋...

    CDA数据分析师
  • 2018年最值得关注的15大技术趋势

    通常情况下,技术趋势是很难准确预测的,因为预测未来本身就极其困难。但是我们还是可以从过往的一些显著数据指标来推测新的一年里科技行业的发展趋势。

    华章科技
  • [计算机视觉论文速递] ECCV 2018 专场3

    Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

    Amusi
  • [计算机视觉论文速递] 2018-07-19 ECCV 2018专场1

    近些天,CVer推送了大家投票选出最喜爱推文系列,如免费资源系列:免费资源 |《解析卷积神经网络—深度学习实践手册》,大牛分析系列:大牛分享| NTIRE 20...

    Amusi
  • Pandas删除数据的几种情况

    参考资料: 1、Dropping Rows And Columns In pandas Dataframe 2、pandas过滤包含特定字符串的行 3、P...

    大江小浪

扫码关注云+社区

领取腾讯云代金券