亚马逊NAACL新论文:如何教Alexa语音助手快速理解新语言

【导读】随着亚马逊Alexa语音助手在越来越多的国家发布,如何快速部署新的翻译模型在新的语言上成为需要考虑的重要因素。亚马逊新论文提出使用成熟的机器翻译模型来提升对新语言的的理解能力,文章将发表在即将召开的NAACL2018上。

论文: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System

链接:https://arxiv.org/pdf/1805.09119.pdf

作者 | Penny Karanasou

编译 | 专知

翻译 | Mandy, Sanglei

Machine Translation Accelerates How Alexa Learns New Languages

随着支持Alexa的设备不断扩展到新的国家,我们提出了一种在新语言中快速部署机器训练模型的方法,旨在更高效地将Alexa带给全球的各种语言新客户。我们将在下周举行的第16届NAACL-HLT计算语言学协会北美分会年度会议上介绍我们的方法。

从零开始构建一个自然语言理解(NLU)模型需要收集和标注大量的训练数据,这对标注者和科学家来说都是一个巨大的时间负担,而且这个机制也不会扩展到新语言中。一个明显的解决方案是尝试利用已用于训练其他语言的NLU模型的大型数据集。在这项工作中,我们使用机器翻译(MT)将现有数据源翻译成目标语言,然后使用翻译后的数据来引导一个NLU系统。

在新语言中训练NLU模型的一种常见方式是使用形式语法(formal grammar),一组句法和语义规则,加上标注有语义信息的词汇,可以产生任意数量的在语法和语义上有效句子。尽管比标注大量数据集花费的时间更少,但这个过程需要语言专家来构建能够为目标应用程序提供良好覆盖率的语法。

一旦这个第一个系统达到一定的性能阈值,它就可以与beta用户共享。 Beta用户的查询当然会比人工生成的数据更能代表真实用户。然后,所有现有的数据源都被用来训练系统,直到它达到一个新的、更高的性能阈值,这个时候通常可供客户使用。一旦客户开始使用该系统,他们的交互会产生更多的训练数据。

然而,为了获得足够多的真实的训练数据,可能需要花费大量的时间和标注才能实现Alexa客户在新语言中所期望的功能覆盖类型。

机器翻译可以说是快速将NLU系统扩展到新语言的一个有用工具,并且提供所有已支持语言中可用的Alexa功能。在本文中,我们使用一个巨大的英语话语数据集来引导德语NLU系统。

此外,我们还探索自动识别“好”的翻译的方法,即提高NLU性能的翻译方法。首先,我们研究基于MT质量的过滤,根据MT模型生成的概率分数对翻译进行评级。接下来,我们研究基于语义准确性的过滤。为了测量这一点,我们使用机器翻译的文本,自动将其转换回原来的语言,然后在结果上重新运行NLU系统。根据新的语义标签与原始标签的吻合程度来对翻译进行评分。

最后,我们将一些语言特定的后处理( post-processing)应用于翻译输出。具体来说,我们使用目标目录来重新采样翻译后的数据。例如,我们会自动将德国城市的名称替换为原始话语中提及的美国城市的名称,以更好地模拟德国用户的数据。此外,我们选择保留某些类型的词,如歌曲和艺术家姓名,未翻译。例如,如果原始话语是“Play music by Queen”,则系统不会将艺术家姓名“Queen”翻译成德语单词“Königin”。

在我们的实验中(我们在论文中提及),在MT数据上训练的系统比在语法生成的数据上训练的系统表现要好得多,而且它们的性能甚至超越了一套训练了10,000个手工标注的德语单词的系统。应用滤波和后处理技术进一步提高了结果。

总的来说,这项工作表明,MT的使用可以缩短语法生成的第一个长阶段,并为一种新的语言收集内部数据。此外,MT还可以更快地为客户提供更多的功能,因为所有支持语言的现有功能的数据都可以立即翻译成新的语言。

Penny Karanasou是亚马逊的机器学习科学家。她和同事们将在即将召开的NAACL会议上介绍他们的工作。

Paper: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language System

论文摘要:

本文了使用机器翻译(MT)在新语言中快速部署自然语言理解(NLU)系统。 我们的目标是减少为新语言获取标注语料库所需的成本和时间,同时仍然具有足够好的效果来应答用户的语音请求。 文章中调研了多种数据过滤和特定语言的后处理方法,这些方法都是为了改善机器翻译的性能。 我们在大规模的NLU任务中对这些方法进行了测试,这个任务主要是将约1000万条训练语句从英语翻译成德语。 结果显示,在语法和内部数据收集方法的基础上使用MT数据可可以取得很大的性能改进,同时大大减少了人工操作。 过滤和后处理方法都对结果的提升做出了贡献。

原文链接:

https://developer.amazon.com/blogs/alexa/post/7dde86fa-0a4f-4984-82d1-7a7d1282fb0c/machine-translation-accelerates-how-alexa-learns-new-languages

-END-

专 · 知

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-06-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

新数学框架“终极算法”理论提出,或让机器诞生意识

1956
来自专栏人工智能

机器学习并不难

在这篇文章中,我们将讨论一般情况下的机器学习的方法以及其与数据库之间的交互途径。如果你是一个不知从何开始学起的初学者,有兴趣知道到底为何我们需要机器学习,并且疑...

2329
来自专栏大数据挖掘DT机器学习

如何将机器学习技术应用到文本挖掘中

本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体...

4106
来自专栏机器人网

机器学习岗位面试内容总结

引言 近两周面试了映客、美团、宜信、微播易的机器学习岗位,基本上是正式岗,也有实习生招聘。感觉被虐得挺爽,一方面是自己知道系统学习机器学习的时间才三个月,另一方...

3646
来自专栏数据科学与人工智能

【资料】7篇重要的数据科学论文

这是回到学校的时间,这里有一些论文让你在这个学年忙碌。 所有论文都是免费的。 这份清单远非详尽无遗,但这些是数据科学和大数据方面的一些重要论文。

2583
来自专栏数据和云

嘉年华专访 | 国际上智能运维研究

张圣林,南开大学助理教授,于2017年7月获清华大学工学博士学位(计算机科学与技术专业)并获得清华大学优秀博士学位论文,导师是刘莹老师和裴丹老师。

4103
来自专栏AI研习社

Pick 一下?Python 机器学习实用技巧

入门机器学习从来不是一件简单的事。除了成熟的 MOOC,网络上还有海量的免费资源,这里列举了一些曾经对我有帮助的资源:

1123
来自专栏机器人网

三种人工智能开源框架

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流...

1711
来自专栏深度学习计算机视觉

数据挖掘引论篇学习笔记为什么进行数据挖掘可以挖掘什么样的数据可以挖掘什么类型的模式使用的技术面向什么类型的应用数据挖掘面临的问题

先从概念上了解数据挖掘 为什么进行数据挖掘 我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。 数据挖掘能把大型数据转化成知识 数据挖掘是信息数...

3726
来自专栏养码场

吆喝科技CTO的纯干货分享:直击A/BTesting和美团推荐技术关键点!

养码场的线上课程,以技术人员为核心的学习、交流、分享社群,全方位服务技术人和技术创业者。这里聚集了众多BAT/美团/京东/滴滴/360/小米/网易等知名互联网公...

1354

扫码关注云+社区

领取腾讯云代金券