Facebook正在使用无人监督的机器学习进行翻译

Facebook已经开始使用无监督的机器学习来翻译其平台上的内容,因为它没有很多从一种语言到另一种语言的翻译示例 - 例如从英语到乌尔都语。

该方法由Facebook AI Research(FAIR)设计,并在FAIR与公司应用机器学习部门的合作中在平台上使用,FAIR巴黎实验室主任Antoine Bordes在电话采访中告诉VentureBeat。

该方法与从一种语言到另一种语言的100,000次翻译一样执行与监督模型一样,并且它优于Facebook几乎没有示例的语言配对系统。

“当你处理像英语 - 乌尔都语这样的案例时,[翻译]很少,我们的系统表明我们的系统比监督系统更好。因此,训练无监督系统比没有足够数据的监督系统更好,“Bordes说。

Facebook AI研究人员Guillaume Lample和Marc'Aurelio Ranzato领导的工作成果将于今年秋季在EMNLP 2018上展出。

博尔德斯是一名早期的公平竞争雇员,并将这项研究称为他见过的最好的研究。Bordes表示,这项研究将注意力放在翻译上,这是Facebook的一项重要任务,也是自2013年开始以来FAIR一直关注的一个问题。

“我们现在可以去一个人们会说一种没人会说的语言的星球 - 例如,外星人 - 你实际上可以尝试对那里所说的内容进行合理的翻译,”Bordes说。“你可以去一本古老的手稿上找到尚未破译的语言,你可以真正了解它的作用,所以这真的是这项工作取得的突破,我认为这就是为什么我感到兴奋的原因。“

与其他FAIR项目一样,AI系统将是开源的,可以在GitHub上下载。今年早些时候,Facebook 开源Translate,一种目前用于在Facebook上进行翻译的人工智能系统。

Translate等系统需要培训大量标记数据。例如,完成从法语到英语的翻译需要数百万个样本句子来创建一个能够理解这两种语言的系统。因此,当Facebook没有很多从一种特定语言到另一种语言的翻译示例时,翻译很困难。

现在用于这些案例的人工智能系统与三个要素相结合:逐字翻译,语言模型和反向翻译。

训练逐字翻译以基于从前面的五个单词和句子中的特定单词之后的五个单词绘制的上下文来预测单词。这个词嵌入方法是在去年秋天Lample和Ranzato共同撰写的一篇论文中提出的。

然后,用大量数据训练的语言模型(如书籍或其他书面文本)用于排列对于英语使用者或乌尔都语说话者有意义的结构中的句子。

最后,使用反向翻译来改进使用逐字翻译和语言模型进行的翻译。他说,这些方法并不新鲜,但三者的结合正在产生结果。

“使用这两个系统[和]在两种语言之间来回翻译,我可以将它们一起训练以试图相互改进,所以这真的是本文的核心,使用[翻译模型]这个词,使用语言模型做第一次翻译,然后用反向翻译的想法试图改进,“他说。

Facebook将在未来探索这种人工智能系统以进行其他形式的翻译,但需要更多数据并与专业翻译人员合作来验证结果,Bordes说。

  • 发表于:
  • 原文链接https://venturebeat.com/2018/08/31/facebook-is-using-unsupervised-machine-learning-for-translations/
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券