CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多

选自arXiv

作者:Mikel Artetxe

机器之心编译

参与:李亚洲、路雪

CoNLL 是自然语言处理领域的顶级会议,每年由 SIGNLL 组织举办。CoNLL 2018 大会将于 10 月 31 日-11 月 1 日在比利时布鲁塞尔举行,地点与 EMNLP 2018 一样(EMNLP 2018 将于 10 月 31 日-11 月 4 日举行)。

昨日,CoNLL 公布了最佳论文,由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信息(如语义/句法和相似度/相关度),为如何编码不同的语言信息提供了新的视角,该研究还研究了内外部评估之间的关系。

近年来,词嵌入成为自然语言处理的核心主题。业内提出了多种无监督方法来高效地训练单词的密集型向量表征,且成功地应用到语法解析、主题建模、文档分类等多类任务。

虽然从理论角度理解这些模型是更加活跃的研究路线,但这些研究背后的基本思路都是为类似的单词分配类似的向量表征。由此,大部分词嵌入模型依赖来自大型单语语料库的共现统计信息(co-occurrence statistics),并遵循分布假设,也就是相似单词倾向于出现在相似语境中。

然而,上述论点没有定义「相似单词」的含义,且词嵌入模型实际中应该捕捉哪种关系也不完全清楚。因此一些研究者在真正相似度(如 car - automobile)与关联度(如 car - road)之间进行区分。从另一个角度来说,词语相似度可聚焦在语义(如 sing-chant)或者句法(如 sing-singing)上。我们把这两个方面作为相似度的两个坐标轴,且每一个坐标轴的两端为两种性质:语义/句法轴和相似度/关联度轴。

本论文提出了一种新方法来调整给定的任意嵌入向量集,使其在这些坐标轴中靠近特定端点。该方法受一阶和二阶共现研究的启发,可推广为词嵌入向量线性变换的连续参数,我们称之为相似度阶(similarity order)。虽然业内提出了多种学习特定词嵌入的方法,但之前的研究明确地改变了训练目标,且总是依赖知识库这样的外部资源。而本论文提出的方法可用做任意预训练词嵌入模型的后处理,不需要任何额外资源。同样,该研究表明,标准的词嵌入模型能够编码不同的语言信息,但能够直接应用的信息有限。此外,该研究也分析了该方法与内部评估和下游任务的关系。该论文主要贡献如下:

1. 提出了一个具备自由参数的线性变换,能够调整词嵌入在相似度/关联度和语义/句法坐标轴中的性能,并在词汇类推数据集和相似度数据集中进行了测试。

2. 展示了当前词嵌入方法的性能受到无法同时显现不同语言信息(例如前面提到的坐标轴)的限制。该研究提出的方法表明,词嵌入能够捕获的信息多于表面显现出的信息。

3. 展示了标准的内部评估只能给出一个静态的不完整图景,加上该研究提出的方法能够帮助我们更好地理解词嵌入模型真正编码哪些信息。

4. 展示了该方法也能运用到下游任务中,但相比于使用一般词嵌入作为输入特征的监督系统,其效果在直接使用词嵌入相似度的无监督系统上更显著,因为监督系统有足够的表达能力来学习最优变换。

总之,该研究揭示了词嵌入如何表示不同语言信息,分析了它在内部评估和下游任务中所扮演的角色,为之后的发展开创了新机遇。

论文:Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation

论文链接:https://arxiv.org/abs/1809.02094

摘要:随着词嵌入最近取得成功,有人认为根本不存在词的理想表征,因为不同的模型倾向于捕捉不同且往往互不兼容的方面,如语义/句法和相似性/相关性。本论文展示了每个词嵌入模型捕获的信息多于直接显现的信息。线性转换无需任何外部资源就能调整模型的相似度阶,因此能够调整模型以在这些方面获得更好的结果,这为词嵌入编码不同的语言信息提供了新的视角。此外,我们还探索了内、外部评估的关系,我们在下游任务中的变换效果在无监督系统中的效果优于监督系统。

内部评估

表 1:原始嵌入以及具备对应 α 值的最佳后处理模型的内部评估结果。评估指标是词汇类比任务的准确率和词语相似度的斯皮尔曼等级相关系数。

图 1:词汇类比任务中,不同 α 值所对应的相对误差减少,原始嵌入的 α = 0。

外部评估

表 2:原始嵌入和具备对应 α 值的最佳后处理模型的语义文本相似度结果,衡量标准为皮尔逊相关系数。DAM 分数是 10 次运行的平均得分。

图 3:不同 α 值对应的语义文本相似度结果。DAM 分数是 10 次运行的平均得分。

讨论

我们认为该研究为嵌入编码不同语言信息提供了新的视角,其与内外部评估之间的关系如下所示:

  • 标准内部评估提供的是不同词嵌入模型编码的静态、不完整信息图。
  • 使用预训练嵌入作为特征的监督系统具备足够的表达能力来学习任务的最优相似度阶。
  • 尽管我们的研究展示了嵌入捕获的默认相似度阶对较大的学习系统影响较小,但它未必是最优的整合策略。如果研究者认为某个相似度阶可能更适合某个下游任务,则他/她设计的整合策略很可能鼓励这个相似度阶,我们认为这是未来一个有趣的研究方向。例如,研究者可以设计正则化方法去惩罚预定义相似度阶的较大偏差。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | MINIEYE首席科学家吴建鑫解读ICCV入选论文:用于网络压缩的滤波器级别剪枝算法ThiNet

机器之心报道 作者:高静宜 近日,南京大学计算机科学与技术系教授、MINIEYE 首席科学家吴建鑫所在团队的一篇论文《ThiNet: 一种用于深度神经网络压缩的...

42780
来自专栏PPV课数据科学社区

大数据分析到底需要多少种工具

1.分类方法大比武 大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习...

36550
来自专栏新智元

DeepMind AI 关系推理超越人类:深度神经网络模块即插即用

【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文,称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN,能...

601140
来自专栏机器之心

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

选自QuantaMagazine 作者:Natalie Wolchover 机器之心编译 参与:黄小天、刘晓坤、路雪 耶路撒冷希伯来大学的计算机与神经科学家 N...

38980
来自专栏AI科技评论

学界 | 好奇心驱动学习,让强化学习更简单

雷锋网 AI 科技评论按:强化学习在最近几年中都是最热门的研究领域之一,但是复杂环境中难以训练、训练后难以泛化的问题始终没有得到完全的解决。好奇心驱动的学习是一...

10330
来自专栏AI科技评论

大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密

9月9日,2016湖南人工智能湖南论坛在长沙举办,大会期间,来自国内外的许多顶级专家在会上给我们做了报告,下面是雷锋网根据微软亚洲研究院刘铁岩教授的现场精华整理...

35460
来自专栏人工智能头条

开发者成功使用机器学习的十大诀窍

13940
来自专栏AI科技评论

动态 | 如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

35390
来自专栏新智元

【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王

【新智元导读】数据重要还是算法重要?一篇新的论文或许给出了答案。使用一个 300 倍于 ImageNet 的新数据集,谷歌研究人员发现,随着数据增长,模型完成计...

42440
来自专栏AI科技评论

干货 | 清华博士生孙奕帆:行人再识别论文介绍及最新进展

AI 科技评论按:提到计算机视觉领域的研究,大家可能最先想到的是人脸识别,其实还有一个更为实用的研究应用——行人再识别。行人再识别是利用计算机视觉技术在图像或视...

46950

扫码关注云+社区

领取腾讯云代金券