专栏首页arxiv.org翻译专栏调查计算语言文档双语方法中的语言影响(Computation and Language)
原创

调查计算语言文档双语方法中的语言影响(Computation and Language)

对于濒危语言而言,数据收集活动必须能够应对很多数据源自口传而且生产副本费用高昂的挑战。因此,为了确保录音的可解释性,至少要将这些录音转译成使用广泛的语言版本。本文中,我们对翻译语言的选择如何影响记录后的工作以及可能的自动方法方面进行了研究,这些自动方法会影响产生的双语语料库。为了解翻译语言选择对这些工作和方法的影响,我们采用MaSS多语言语音语料库(Boito等人,2020)创建了56个双语对并将这些双语对应用到了资源缺乏的无监管词切分和词切分任务中。研究结果中重点强调了翻译语言的选择对词切分性能的影响而且利用不同的已对齐译文会学到不同的词汇。最后,本文提出了一种双语词切分的混合方法,这种方法将从非参数贝叶斯模型中摘录的范围提示(Goldwater等人,2009a)与Godard等人(2018)的注意词切分网络模型组合在一起。研究结果表明,将这些提示整合到网络模型的输入表示中能够提高翻译和对齐质量,尤其是非常复杂的语言对。

原文标题:Investigating Language Impact in Bilingual Approaches for Computational Language Documentation

For endangered languages, data collection campaigns have to accommodate the challenge that many of them are from oral tradition, and producing transcriptions is costly. Therefore, it is fundamental to translate them into a widely spoken language to ensure interpretability of the recordings. In this paper we investigate how the choice of translation language affects the posterior documentation work and potential automatic approaches which will work on top of the produced bilingual corpus. For answering this question, we use the MaSS multilingual speech corpus (Boito et al., 2020) for creating 56 bilingual pairs that we apply to the task of low-resource unsupervised word segmentation and alignment. Our results highlight that the choice of language for translation influences the word segmentation performance, and that different lexicons are learned by using different aligned translations. Lastly, this paper proposes a hybrid approach for bilingual word segmentation, combining boundary clues extracted from a non-parametric Bayesian model (Goldwater et al., 2009a) with the attentional word segmentation neural model from Godard et al. (2018). Our results suggest that incorporating these clues into the neural models' input representation increases their translation and alignment quality, specially for challenging language pairs.

原文作者:Marcely Zanon Boito, Aline Villavicencio, Laurent Besacier

原文链接:https://arxiv.org/abs/2003.13325

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自动驾驶共享多模态轨迹预测(CS AI)

    本文提出了一种用于预测在高度交互环境中交通未来轨迹的预测框架。基于自动驾驶车辆均配备有各类传感器(例如:LiDAR扫描器,RGB摄像扥)的现实条件下,本研究旨在...

    用户6868260
  • 利用迭代细化进行依存关系语法分析的递归非自回归图到图转换器(CS and Language

    我们提出了一种通过非自回归图到图转换器的递归应用程序对任意图进行迭代细化的递归非自回归图到图转换器(RNG-Tr)。虽然之前自回归图预测中已经使用了\newci...

    用户6868260
  • 让元数据适用于新一代语言技术平台:欧洲语言网的元数据模式(CS and Language)

    当前科技格局的特点是提高数据资源以及数据处理工具和服务的可用性。在这种环境下,元数据作为方便数字资产管理、共享和使用的关键因素应运而生。本文中,我们提供了一个说...

    用户6868260
  • 法兰克福拉丁词典:从形态扩展和词嵌入到符号图(CS CL)

    在本文中,我们介绍了法兰克福拉丁语词典(FLL),这是中世纪拉丁语的词汇资源,用于拉丁文本的词素化和词素化的后期编辑。我们描述了造词机的最新发展,并针对Capi...

    刘子蔚
  • 形态系统中探索性搜索的分层组织潜在模块(CS AI)

    在许多自然和人工系统中,由局部相互作用引起的复杂形态模式的自组织是一个令人着迷的现象。在人工世界中,这种形态发生系统的典型例子是细胞自动机。但是,它们的机制通常...

    刘子蔚
  • 基于网络的数字心理工具开发的编程技术(CS HC)

    信息系统创建工具和编程技术的选择是相关的。对于每个拟定计划的系统,都有必要为开发环境、使用的库和技术定义一些标准。本文以俄罗斯教育学院开发的网络平台为例,阐述了...

    Elva
  • Auto-Encoding GAN

    Mihaela Rosca, Balaji Lakshminarayanan, David Warde-Farley, Shakir Mohamed

    用户1908973
  • 一种高效实用的多重加权Voronoi图计算算法及实现(CS CG)

    本文提出了一种简单的波前方法来计算欧氏平面上点和直线段的多重加权Voronoi图。如果输入点可以假设为随机加权点,则使用所谓的叠加排列[Har-Peled&Ra...

    用户7454091
  • 【世界读书日】2018版十大引用数最高的深度学习论文集合

    量化投资与机器学习微信公众号
  • 【CCF-CV特别活动】“CCF-腾讯犀牛鸟沙龙”走进腾讯优图

    中国计算机学会计算机视觉专委会走进企业系列交流会 CCF-CV@Industry 腾讯优图·上海 主题:图像识别和多媒体分析技术前沿 时间:2016年5月13日...

    腾讯高校合作

扫码关注云+社区

领取腾讯云代金券