机器之心报道
参与:路
近日,自然语言领域专家、DeepMind 研究科学家 Sebastian Ruder 等人发表了新书《Cross-Lingual Word Embeddings》。这本书由哥本哈根大学 Anders Søgaard、剑桥大学 Ivan Vulić、DeepMind Sebastian Ruder 与谷歌 Manaal Faruqui 合著,主要探讨自然语言处理领域中的跨语言词嵌入问题。
大部分 NLP 问题是关于英语语言处理的,英语语言具备优秀的语言技术支持,而同类的支持对于阿尔巴尼亚语、缅甸语、宿务语等语种而言非常有限。弥补不同语种之间的数字鸿沟对于科学和民主都至关重要,同时这也代表了一种巨大的增长潜力。而其关键挑战在于,对齐不同语言的基础语义单元。
四位作者在《Cross-Lingual Word Embeddings》一书中,研究并讨论了从之前到近阶段关于此类对齐的监督和无监督学习研究。具体而言,这本书系统性地探讨了「跨语言词嵌入」问题,全书使用了一致的符号,并以可比较的形式介绍可用方法,从而帮助读者更容易地对比大量不同方法。
作者为这些不同方法建立了关联,而这在之前是没有过的,而且他们还以非常紧凑的方式展示了快速增长的研究文献。此外,作者还讨论了如何更好地评估跨语言词嵌入方法,并调查了方便对该主题感兴趣的学生和研究者使用的资源。
目录
该书的目录如下所示:
监督式跨语言词嵌入模型的分类
我们简要介绍一下该书第三章的内容,即作者们认为的监督式跨语言词嵌入模型的分类。
他们按照两个维度来划分:监督所需对齐的类型、对齐编码的可对比性,即根据跨语言词嵌入模型使用的数据类型进行分类。
具体而言:
作者将对齐类型分为三类:词级、句子级和文档级,并以此为基础对对齐信号的数据类型进行分类(平行数据 vs 可比较数据)。
下图展示了不同对齐类型的数据源示例。
表 3.1 和 3.2 展示了在这种分类方法下的跨语言词嵌入模型分类结果。
其中表 3.1 列举了词对齐类型的方法:
从该表中可以看出,词对齐类型方法在近期研究中是主流。
下表 3.2 列举了其他两种对齐类型(句子对齐和文档对齐)的方法:
这本书按照该分类方法进行不同方法的介绍、分析和对比,细致地介绍了跨语言词嵌入问题。
对跨语言词嵌入主题感兴趣的读者,可通过此书查看更多内容。
链接:http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?products_id=1419
本文为机器之心报道,转载请联系本公众号获得授权。