【NLP必备】将模型应用到数据较少的语言上:跨语种词嵌入模型梳理

【新智元导读】不同语言的数据量不同。一些数据较少的语言,嵌入模型的训练会遇到困难,而跨语言嵌入模型则允许研究者将来自不同语言的词汇投影到共享嵌入空间中,使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。今天为大家推荐的这篇论文,对跨语言嵌入模型进行了梳理。我们摘取论文的概要和评估部分为您做了介绍。

跨语言嵌入模型允许我们将来自不同语言的词汇投影到共享嵌入空间中。这使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。本文对跨语言嵌入模型做了梳理,基于它们采用的方法和平行数据的性质进行了讨论。最后,我们指出了挑战所在,并总结了如何评估跨语言嵌入模型。

跨语言嵌入模型更能获取通用嵌入空间中多种语言的词语间的关系

近年来,由于词嵌入的成功推动,出现了许多可以精确学习词汇表征的模型。然而,这些模型通常受限于只能获取它们所训练语言中的词语表征。资源的可用性、训练数据和英语里存在的基准促成了对英语不成比例的重视,以及对世界各地所使用的其他语言的忽略。在我们的全球化社会中,国界越来越模糊,因特网给每个人平等获取信息的机会,因此,我们不仅要求消除与我们的性别或种族有关的偏见,也希望解决我们对语言的偏见。

为了解决这个问题,平衡语言环境,我们希望利用我们现有的对英语的认识来为我们的模型提供处理其他语言的能力。完美的机器翻译(MT)能做到这一点。然而,我们不需要实际翻译样本,只要我们能够将样本投影到一个常见的子空间中,如图 1 所示。

图1:两个语言间共享的嵌入空间

最终,我们的目标是在所有语言的词汇之间学习一个共享的嵌入空间。配备了这样的矢量空间,我们就可以在任何语言的数据上训练模型。通过将一种语言的可用样本投影到这个空间中,我们的模型同时获得了执行所有其他语言中的预测的能力。

本研究对一类模型和算法进行综述,这些模型和算法更离获取通用嵌入空间中多种语言的词语之间关系的目标更近。

研究者在多种任务中对跨语言表征模型进行了评估

在研究了学习跨语言词汇表征的模型之后,我们想最终判定用于解决我们所关注任务的最优方式是哪一个。我们已经在多种任务中对跨语言表征模型进行了评估,包括跨语言文档分类(cross-lingual document classification,CLDC)、机器翻译、词汇相似度,以及在命名实体识别、词性标注,超感标注,依存句法分析和词典归纳中的跨语言变体。在Klementiev等人的CLDC 评估体系下,40维跨语言词汇嵌入被学习用于对一种语言的文档进行分类,并在对另一种语言的文档分类中进行评估。由于CLDC 是被最广泛使用的,我们将 Mogadala 及 Rettinger 的评估表格示例如下:

表2 CLDC 上 跨语言嵌入模型的对比

然而表 2 的结果并不能代表跨语言嵌入模型的一般性能,使用不同方式和不同类别数据的模型在不同任务中的表现的性能也不尽相同。Upadhyay 等人评估了不同任务中需要各种形式监督的跨语言嵌入模型。他们发现在词汇相似度数据组中,句子对齐和文档对齐的模型和词汇对齐模型的表现旗鼓相当。而在跨语言分类及词典归纳任务中,监督越详尽,效果越好。最后,在句法分析方面,词对齐的模型能够更准确地理解语法,因而整体表现更好。

Upadhyay 等人的发现进一步证明了数据的选择至关重要。Levy 等人进行了更深入的研究,他们对比了跨语言词汇表征模型与传统对齐模型在词典归纳及词对齐任务中的表现。他们认为所选定的算法是否使用了某一个特定的特征集比选取哪一个算法更重要。在他们的实验中,使用句子识别,如生成一个句子的独立于语言的表征(如doc2vec),比仅仅使用源词和目标词得到的效果更好。

最后,为了便于评估跨语言词汇嵌入,Ammar 等人建设了一个网站以供已学习的语言表征的上传和在多种任务中的自动评估。

使得我们得以研究跨语言表征的模型已经在诸如机器翻译(解码和评估)、自动双语词典生成、跨语言信息检索、平行语料库提取和生成,以及跨语言文本剽窃监测等多种任务中被证明有效。期待未来看到更多进展。

论文地址:https://arxiv.org/pdf/1706.04902.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 发美照时打上「#」,还能帮Facebook提升图片识别率哟

AI 科技评论按:近日 Facebook 科学家团队发布基于主题标签的深度学习方法,使用已有的拥有主题标签的图片作为训练数据,从而大幅提升了训练数据集的大小。数...

1172
来自专栏机器之心

观点 | 为什么深度学习仍未取代传统的计算机视觉技术?

选自zbigatron 作者:Zbigatron 机器之心编译 参与:张楚、黄小天 本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为...

3494
来自专栏机器之心

学界 | 最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

2295
来自专栏书山有路勤为径

机器学习策略(1)

假设你在做一个猫的分类器,训练准确度达到了90%,现在还想继续提高,你可能会有以下的想法:

922
来自专栏专知

ImageNet模型能够迁移适用图像推荐吗?30页slides告诉你

【导读】Felipe del Rio等人发表了一篇论文,阐述了ImageNet模型是否能够迁移使用图像推荐的问题。

1566
来自专栏PPV课数据科学社区

学习攻略 | 机器学习和深度学习技能树、面试宝典

人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

4215
来自专栏数据科学与人工智能

【陆勤阅读】【推荐】开发者成功使用机器学习的十大诀窍

作者|Alexander Gray 编译|刘帝伟 转自|CSDN 在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应...

2228
来自专栏新智元

8张图看苹果公开的第一篇 AI 论文

【新智元导读】 苹果终于发表了AI方面的第一篇论文。12月22日,苹果题为《Learning from Simulated and Unsupervised I...

4326
来自专栏新智元

中星微夺冠国际人工智能算法竞赛,目标检测一步法精度速度双赢

2057
来自专栏AI科技评论

Uber 论文5连发宣告神经演化新时代,深度强化学习训练胜过 SGD 和策略梯度

AI 科技评论按:一直低调的 Uber AI 研究院近日连发 5 篇论文,介绍了他们在基因算法(genetic algorithm)、突变方法(mutation...

3696

扫码关注云+社区

领取腾讯云代金券