首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

百度的这款共享WiFi翻译机,能弥合横亘千年的人类语言鸿沟吗

日前,上月亮相百度世界大会的一款「黑科技」产品「百度共享WiFi翻译机」正式发布。这款翻译机之所以引发众多关注,不仅由于其在翻译的同时还具有 Wi-Fi 功能,更是因为,在这个翻译机器里,人工智能扮演了重要角色。

根据相关媒体报道,支撑这款产品的,即包括通用 N-Gram 识别模型,还拥有了近十万个小时、数千亿网页资料的数据训练,从而也保证了高达 97% 的翻译准确率。

众所周知,语言可谓人类文明的基石。正是语言能力,才让人类具备了成为高等动物的可能性,同时也因为不同语言的隔阂,在一定程度上阻碍了世界各国的交流和合作。过往相当长的历史里,人类为了「重建巴别塔」(《圣经·创世纪》记载,人类早期拥有共同语言并一起修建一座通天塔)作出各种辛勤努力,而纵观人类历史上每一次重大的文化、技术突破,无不是来自不同语言之间的转换、翻译所共同铸就的成果。

如今,人工智能正在成为人类语言翻译的全新助手,这既是人类文明交流的现实需要,也是人工智能进一步发展的必然选择。

1.为什么人工智能需要翻译

翻译之于人工智能的历史可谓源远流长,自 1956 年人工智能被「创造」出来之后,一代代的数学家、计算机学家孜孜不倦地追求智能的本质,其中就包括如何让计算机理解语言,同时在不同语言之间作出转换。事实上,当信息技术理论开拓者克劳德·香农为信息设立「刻度」之后,所谓语言的理解、翻译也就成为信息编码之间的转化。

表面看起来,语言之间的翻译似乎就是一个语言密码加密/解密的过程,但绝非如此简单。

其原因就在于,早期针对语言翻译的研究,都是建立在不同语言之间的转换规则之上。在语料库比较少的时候优势非常明显,早在 1954 年,美国乔治敦大学就利用俄语和英语之间的规则,成功地将 60 句俄语翻译为英语,一度引发轰动效应。

但研究者们却发现,当语言之间的规则、语句数量增加时,这种基于统计学层面的机器翻译几乎不可用,一方面是因为不同语言之间转换规则的数量级庞大,而且这种规则也往往不具备通用性,这意味着,就算你制定了英语转换德语的规则,还要从零开始制定从英语到法语的规则,如此种种,无穷无尽。另一方面,当时的计算能力也无法满足各种规则的转换需求,整个翻译过程速度慢、效果差,效率非常低。

某种意义上说,机器翻译的失败也是数次「人工智能寒冬」的因素之一,同时其涉及计算机、认知科学、语言学、信息论等学科,从而成为人工智能研究者们努力攻克的命题,而历史转折点也在一代代人的努力中到来了,这就是基于神经网络的机器翻译。

早在 2015 年 5 月,全球首个基于深度学习的大规模在线翻译系统出现在百度的在线翻译服务里,利用深度学习带来学习、进化能力,机器翻译的质量和速度开始有了巨大提高。当然,正如百度副总裁、AI技术平台体系总负责人王海峰所言:尽管基于神经网络的机器翻译很火热,传统的机器翻译方法仍有价值。统计机器翻译方法需要从词,到短语,到句子一层一层去做对齐、抽取、重排序等等;而神经网络翻译模型则可以是端到端的系统,用足够的语料去训练,就可以得到不错的结果。

也正是这种新旧的有效结合,不仅成就了百度在机器翻译的优势地位,也是包括 Google 、Facebook 在内的行业公司所认可的方向。如今,当一谈起机器翻译时,曾经与翻译可谓毫无关系的百度等互联网巨头已经具有不小的话语权,Why?

2. 为什么百度能做好机器翻译

回答这个问题的关键就在于如何理解互联网公司、深度学习以及语言翻译的本质。

上文提到,对于计算机的来说,语言翻译的本质是计算机理解人类语言之后的编码转换;深度学习发展的重要一环是需要海量数据,而数据恰好也是百度、Google 等互联网公司的天然优势。以百度为例,作为中文互联网领域的重要入口,具有海量的中文网页数据,这就给自然语言处理以及机器翻译提供了海量的训练语料。

而且,百度自 2015 年就有相关产品的布局,这种先发优势直接带来的就是用户形成的巨大惯性。考虑到百度庞大的用户群体,每天数以亿计的翻译次数反过来又会形成训练机器的新数据,从而形成了一个正向反馈,其结果就是,用户越用发现这个翻译系统也越聪明,也会更喜欢使用。

其次,深度学习被工业界广泛接受后形成了巨大的影响力,推动了整个自然语言理解技术架构的演进,从而也让机器翻译受益颇丰。

比如百度过去几年依托海量数据、机器学习,支撑起了知识图谱、问答、机器翻译的全新架构体系,同时自然语言处理广泛应用在百度搜索、Feed 流、广告等产品中。此外,这种来自底层技术架构进步所形成的子技术生态效应也是这几年整个行业发展的突出特征,比如Facebook 就利用这种效应实现了 FB 用户主页任意语言之间的翻译。

第三,当全行业都在喊出人工智能转型之时,百度、Google 这样的互联网巨头也在释放其全新的人工智能平台红利。百度自 2017 年宣布「AI in ALL」以来,包括机器翻译在内的众多人工智能产品正在成为不同行业的赋能产品。

在百度的翻译开放平台中,不仅涵盖了通用翻译和定制化翻译的 API,还提供了拍照、语音翻译的 SDK,这些开发接口能够帮助不同行业开发者们快速实现高质量的机器翻译需求,而对平台来说,这些来自开发者们的热情以及需求反馈也会形成进一步改进产品开发的动力,也更容易推动产品研发周期加快、功能更全。

3.写在最后:一个普通人都可以享受 AI 的时代

如果把视线切回这款新发布的翻译机上,或许我们还会提出一个疑问:我们真的需要一台专属的翻译机吗?

这个问题的答案并非只有「是」或「否」那么简单,因为类似的问题你还可以提出更多,比如我们真的需要一台专属的音频设备(音箱)吗?毕竟,智能手机能做的事情似乎更多。但正如智能音箱的流行一下子降低了语音交互的门槛,让越来越多的用户进入到全新的人工智能交互时代一样,一台专属翻译机所带来的,更在于让机器翻译——这个听起来高端大气的名词走入寻常百姓家。毕竟,不是每个人都习惯使用智能手机打开一款款翻译应用,而这一切放在中国出境游年年创新高的宏大社会语境下或许更具现实意义。

正如上文所言,2017 年是互联网巨头力推的「AI 民/主」之年,一方面,百度也好、Google 也罢,不遗余力的将人工智能的开发门槛降低降低再降低,吸引越来越多的开发者加入到人工智能的开发之中;另一方面,从智能音箱的流行到专属翻译机的出现,也让普通用户享受到了语音交互、自然语言处理以及机器翻译进步所带来的产品红利,这不仅让人想起不久前百度世界大会上的主题:「Bring AI To Life」,而我们也有理由期待未来越来越多的奇迹出现。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171222A0V7DR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券