阮桂君:人工智能的方言识别转发

随着人工智能应用领域的拓展,方言识别问题也越来越受到重视。开发一款能够识别方言的人工智能设备,将是未来的潮流。但是方言与普通话不一样,普通话语音识别相对简单,因其以北京音为标准音,也有非常精细的三级六等测试标准。目前在普通话水平考试中,可以由机器直接来测试字、词、句的朗读,,只有自由表述部分需要人工来干预。

方言的语音识别则不然,它要复杂得多。从方言差异来看,中国的方言南北差异太大,哪怕同属于一个大的方言分区,也分歧异出,更不用说属于不同大区之间的方言了,那是连相互通话都极为困难的。比如在东南地区的上海人和广东人,就无法听懂对方的方言。那么方言数据库的采集,也就面临很多困难。一般来说,数据库的采集无非是字、词、句的搜罗,把该方言点的常用句子、词语通过文字、音标乃至语音的方式记录下来,集成一个数据库,供人工智能学习使用。但是这个数据库的采集,挂一漏万,很难完备。

因为语言是变动的,在没有标准的情况下,人们使用方言是相对自由的,变化也较大——在发音上,尤其是在声调的变化上,同一个城市、不同的片区,都会出现变化。有些字词句,只在特定的人群使用——老中青三代对事物的表述差别较大,在词汇的选用上甚至可能差别巨大。比如宁波人称一般称土豆是“洋芋艿”,但是稍微年龄大一点的,也叫“红毛芋艿”,而在中小学的青少年口中,就习惯使用“土豆”这种称呼。

目前,比较有名的语音识别软件有国外的Google Now、Siri、Nuance、Amazon Echo,国内的讯飞、百度、云知声、搜狗等。

2018年4月28日 讯飞输入法测试

今天是个晴天,天气好毛好的,我去,过来找,过早,我这还蛮早勒,哎。我还测试了,关于讯飞输入法的符号方式是不是正确。

今朝阿拉用上海言话,李刚讲,官员,马兰头四斤。这几天,天气有点暖,月头有点忙,后头呀,阿拉到外头,去买眼,东西吃吃,搿事体呀,也蛮难弄哦。葛末今朝子啊!屋里个篮球场。

我的章子有陕西话的给大家找了句话,哎,有一拼呀,有以后有人呀爱他的,这都是常识问题,买东西,豆豆这次我买的都不对,狐狸公母我我知道了,嗯。

今天用讯飞输入法测试了三种方言,第一种是武汉话,第二种是上海话,第三种是陕西话(见以上)。在测试的结果中能发现,武汉话的识别率还是非常高的,上海话的识别率也还可以,不过陕西话那就差强人意了,还是有很多内容识别的不准确。

目前,方言的语音识别问题已经受到了人工智能界的高度重视,很多公司都在开发这方面的软件。不过呢,到底怎么样让我们方言语音的识别技术达到一个相当高的水平呢?这个问题应该还是要涉及到不少语音学相关的问题。一般来说,常规的语音识别,还是通过大量的句子储备来实现的。另外,我们通过音标的标注,再加上方言词典的支持,基本上可以将跟普通话非常接近的方言实现良好的语音识别。从几款常见的语音识别软件的测试结果来看,跟普通话比较接近的官话区的方言还是有比较高的识别率的。

这里有一个很有意思的现象,也是我们判断语音识别准确率是否高的一个标准。一边说话,一边被识别出文字时,如果被识别出的文字非常标准,或者说非常符合该方言区常用的书写习惯,这个识别的准确率就算是高的。而当前的语音识别中经常出现随意识别方言字词的现象,那么其准确度、科学性就会受到质疑。以讯飞输入法的方言识别功能为例,当识别上海话时,识别结果中句子格式内的常用字的准确度非常高。可以推测,它的研发过程一定有方言学者的参与。

由此我想说的是,这种语音识别软件的开发,对方言研究实际上是非常有价值和有意义的,因为这样一款软件可以给我们的方言转录工作减少很多负担。一般来说,我们进行一次方言转录,大概需要七个多小时的时间才能把一个小时左右的语音转录为文字。对于更复杂的方言,比如吴语、闽语来说,转录的时候也就更麻烦。那么我们有了这样一个语音转文字的软件之后,很多工作就开始变得简单起来了,语音可以即时转为文字,并且对于很多没发用文字写出来的方言,我们可以通过后台的设计,给特定语音和特定符号建立联系,进行记录。语音识别软件对方言学研究中语音材料的搜集整理工作来说将是一个革命性的推进。

所以我想,如果有必要的话,一定要让方言学参与语音识别软件的开发,这样能让“标准化建设”做得更好。我觉得国家语委在这方面可以有所作为,我们可以专门组织一批专家,对输入法中、语音识别领域内的方言字词、方言音标等做出规范,这样其准确率以及后惠性就能大大提升。我们的普通话是有专门的语音词汇和语法规范的 ,它以北京音为标准音,以北方方言为基础方言,以典范的现代白话文著作为语法规范——这样一个规范可以让我们在使用普通话时更觉轻松简单,我想方言亦会如此。

方言语音识别的应用范围应该是非常广的。它可以方便那些不会使用普通话,或者普通话使用的不太好的人进入互联网领域。想想那些不会拼音、不会打字,并且只讲方言的老年人,现在可以通过方言语音识别输入文字,几乎无障碍地和亲友实现沟通。如果这种人工智能产品的推广效果良好,实现从城市到广袤农村的普及,从语言采集的角度来看即对方言研究意义重大。在原来,语言学以1+1+1这种模式,一个点、一个点地去进行语言调查,速度慢、效率低。而现在,我们可以直接通过方言语音识别进行线上的资料收集,快速高效。

当然了,我非常希望语音识别在未来可以记录个人语言使用习惯,从而实现对个人语言的适应,能建立起个人的语音、语言库,把我们整体的语音识别准确率尽力提到最高。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180508B00L0Z00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券