【导读】人工智能不再是科幻小说,不再是阅读理解,不再是新闻标题,不再是以太网中跃动的字节和CPU中孱弱的灵魂,而是实实在在的宿命。
14日晚,微软宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平,实现了自然语言处理的又一里程碑突破。
微软亚洲与美国实验室的研究者称,其中英新闻机器翻译系统在常用的新闻报道测试集 newstest 2017 上达到了人类水平。该测试集由来自业界和学界的团队共同开发,去年秋季在 WMT17 会议上发布。
该研究团队使用的测试集包含了一个在线新闻样本的 2000 个语句,同时该测试集也被专业译者翻译过。微软在该测试集上进行了多轮评估,每次随机选取数百个译文。
为了确保翻译结果准确且达到人类的翻译水平,微软研究团队还邀请了双语语言顾问,将微软的翻译结果与两个独立的人工翻译结果进行了比较评估(全部盲测)。具体说,当100分是标准满分时,微软的系统得分69.9,专业译者68.6,而众包翻译得分为67.6。
据了解,该系统中用到的技术包括对偶学习(Dual Learning)、推敲网络(Deliberation Networks)、联合训练(Joint Training)和一致性规范(Agreement Regularization)等。
微软的这次突破,将机器翻译超越人类业余译者的时间,提前了整整7年,远远超出了众多ML研究人员的预想。
机器翻译是研究者研究了数十年的问题,专家称,很长时间以来人们都认为机器翻译无法达到人类水平。研究者现在仍应该注意该里程碑时间并不意味着机器翻译问题已经被解决,只能说明我们离终极目标又更近了一步。
机器翻译相比模式识别任务要复杂得多,在其他任务中,例如语音识别,判断系统的表现是否和人类一样好是很直接的,因为理想结果对于人类和机器来说都是一样的。
而在翻译任务中存在很多微妙差别。即使两个文笔流畅的人类译者对同一句话的译文也可能略有不同,并且二者都是正确的。这是因为一句话的正确译文并不是唯一的。
复杂性让机器翻译成为一个极有挑战性的问题,但也是一个极有意义的问题。我们不知道哪一天机器翻译系统才能在翻译任何语言、任何类型的文本时,都能在“信、达、雅”等多个维度上达到专业翻译人员的水准。不过,对技术的进展很多人都表示乐观。
神经机器翻译,或者说深度学习,最激动人心的地方在于,它能够学会自然语言内部的embedded feature,把语言的结构,语义结构和语义的表示学习出来,再反馈到系统,从而实现自然语言理解的突破。
近两年随着深度神经网络的引入,机器翻译的表现取得了很多显著的提升,翻译结果相较于以往的统计机器翻译结果更加的自然流畅。
领取专属 10元无门槛券
私享最新 技术干货