首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

翻译,又一个即将消失的职业

随着人工智能技术的发展,机器随着人工智能技术的发展,机器翻译已经取得了很大进步。然而在传统方法中,需要数百万字的逐句对照来教会机器如何翻译,现在研究人员在新论文中表示不需要平行文本(可以逐句对照阅读的原文及其译文)也可以让其学会翻译。

人类一直渴望沟通,早在 20 世纪 30 年代初,法国科学家GB 阿尔楚尼提出了用机器进行翻译的想法。经过几十年的努力,人类终于逐渐学会用机器翻译。这个过程经历了很多阶段:起初是基于规则的翻译,最简单的翻译方法是逐字翻译,如将「我爱你」翻译成「I love you」。随着句子越来越复杂,语言学家们发现了越来越多的规则可用程序实现。

下一个阶段是用统计方法进行翻译,专家把一句话分成很多块,把每一块所有可能的翻译都找到,选择机率最大的。最后将所有的句子生成,找到最有可能的。如「我爱你」可能被翻译成「I love you」、「I like you」,最终「I love you」最适合,被系统选择。建造这样一个系统需要大量的数据用于训练系统,我们需要平行文本,并至少被翻译成两种语言。但每当有一种新的语言,都需要专业人士进行调试和修整。

随着科技进步,科学家发明了人工智能神经网络技术来翻译。以 Google 为例,他的翻译系统非常强大,需要很多训练数据和计算机资源才能实现,它使用了序列到序列技术(sequence to sequence)。这个技术的翻译准确率已经超过了使用统计方法的机器翻译系统。

然而,这些人工智能系统通常需要大量的人工翻译的内容供计算机学习,而现在有两篇新的论文宣布,可以开发一个不依赖平行文本的系统。来自西班牙巴斯克大学(UPV)的信息科学家 Mikel Artetxe 表示,你给一个人很多的中文书籍和阿拉伯语书籍,二者没有文字重合,在这种情况下,一个人学习将中文翻译成阿拉伯文很难,但计算机可能不会。他们用的是非监督学习方法,监督学习可以理解为数据有卷标,好比知道题目和答案,这意味着它会针对任何问题做出正确答案的尝试,人类会告诉它是否正确,并根据需要修改。

在实际应用中,往往很难获取到数据卷标,因此要选择非监督学习。例如,不管在哪种语言中,「桌子」和「椅子」经常一起使用。系统透过找到每种语言中的这些关系,对其进行比较,就能理解哪些相关。

新论文中,提出的方法与此类似,还能翻译完整的句子。论文中使用了两种策略:「反向翻译」(Back Translation)和「去噪」(Denoising)。反向翻译是把一种语言写成的句子粗略翻译成另一种语言,然后反向翻译回来,如果结果不相同,则对系统进行调整。去噪也是类似的过程,但不是来回翻译,而是向句子中添加单词等「噪声」。这些方法可以帮助机器更好地理解语言如何翻译。

这两个系统,一个是UPV开发的,另一个是 Facebook 信息科学家Guillaume Lample。那么,如何评价者两种系统呢?二者选择比较英文和法文之间的双向翻译,其中包含了 3000 万个句子,这是两篇论文之间唯一能比较的结果。两者用来衡量翻译的准确性的评分均为 15 分,与 Google 翻译的40 分相比要低,人工翻译则为 50 分。作者们均表示,这些系统能够透通过半监督学习的方式得到改进,即监督学习和非监督学习相结合。

此前,AlphaGo Zero 同样也不需要人类的经验,自行学会了棋谱。或许在未来,人工智能可以在很多领域「无师自通」,也能成为摆脱人类思维定势的很好方法。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171211A0V1M700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券