闽南话人工智能语音系统开放试用,识别准确率近80%

闽南方言人工智能语音系统界面

厦大学生使用智能系统。

近日,记者下载体验了一款闽南方言人工智能语音系统软件。用闽南话对着手机说“爱拼才会赢”,语音输入后,屏幕上立刻显示“爱拼才会赢”字样。该“智能系统”由厦门大学洪青阳、许彬彬两位老师带领的科研团队合作研发。目前,这一软件已经过多个阶段的内部测试,并开放供广大市民免费试用。

囊括省内厦、漳、泉,国外多地闽南话聚居地的语音

厦大信息科学与技术学院副教授洪青阳有个远大的目标:希望这一“智能系统”能成为许多闽南普通人日常生活的工具,不识字的老年人、牙牙学语的小孩子,都能受益于此。为此,他找来了厦大人文学院中文系的助理教授许彬彬,两人一头扎入了“智能系统”的研发工作。

为让这一系统的闽南方言数据尽可能全面,洪青阳团队开发了一个智能软件,用于录音收集,许彬彬带领团队借鉴、整理大量语音资料。最终,“智能系统”内囊括了福建省内厦、漳、泉多地的闽南方言、文本,甚至收集到了国外多处闽南话聚居地的语音材料。

许彬彬说:“尽管厦大的语音资料库已有很好的资源,但每到寒暑假,我就和团队学生去各地进行‘田野调查’。”省内的漳浦、东山等,以及菲律宾北部城市、日本关西地区、美国的西部地区……许彬彬和团队成员在每一个地点至少要停留5天,尽可能全面地描写该地区语音面貌。

识别准确率近80%,安卓与苹果系统都可安装使用

闽南话中存在大量多音字,有着复杂的文读白读现象,比如“大学”这一词就有文读和白读两种读法。起先,出于日常口语化的考量,系统仅收集识别了白读读法。随着数据收集的不断完善,洪青阳和团队也不断更新技术,现在该团队对闽南话语音识别采取了特定规则的发音词典标注,并用革新后的算法建立了闽南话语音识别模型。

不仅如此,在征集到的语音材料中,有些志愿者的语音语调较不标准,有些甚至混入了现代语音体系的表述,洪青阳团队就需要在系统后台不断完善算法,一一删去这些可能影响系统准确性的语音变量。

采访中,洪青阳使用“智能系统”及市面上某种输入法,将几句闽南话同时录音进行识别,记者发现,某输入法的识别结果不尽人意,而“智能系统”则正确识别。洪青阳表示,经过多个阶段的内部测试及完善,现在这一系统的准确率已达近80%,超过市面上某成熟输入法。

历时一年多,随着“智能系统”渐趋完善,洪青阳和许彬彬团队将其开放供广大市民免费试用。目前,安卓系统可以直接安装使用,而苹果系统则需设置内部应用权限再使用。

课题成功开花结果,许彬彬感慨道:“我和洪老师都是闽南人,做这一课题的初心是为了传承闽南文化。”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181214A1BORQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券