前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >研究人员利用重音训练AI,以提高模型对口音的识别

研究人员利用重音训练AI,以提高模型对口音的识别

作者头像
AiTechYun
发布2018-07-27 14:33:46
7670
发布2018-07-27 14:33:46
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

编译:chux

出品:ATYUN订阅号

没有什么东西比不懂你口音的语音识别系统更令人沮丧。发音的语言差异使数据科学家多年来一直困扰,训练模型需要大量数据,而某些方言不像其他方言那么常见。

思科,莫斯科物理科学与技术学院和高等经济学院的研究人员在Arxiv.org上发表的一篇新论文(“Foreign English Accent Adjustment by Learning Phonetic Patterns”)中提出了一个可能的解决方案。他们的系统利用了词汇和语调的辩证差异来创建新的重音词样,与类似的系统相比,它学会了一些准确的识别。

研究人员写道:“更多非本地口音的语音数据对于提高现有语音识别模型的性能是必要的。然而,这仍然是一个悬而未决的问题。”

该团队从卡内基梅隆大学(CMU)发音词典中获取数据,该词典包含数千个英语使用者录制常用词的录音。传统上,当训练系统采用新口音时,语音学家必须手动提取称为语音概括的特征,以表示通用美国英语(GAE)缺乏明显区域或种族特征的英语口语,与不同口音的音频样本之间的差异。但是那种硬编码往往不能很好地扩展。

研究人员的模型自动推广了这些规则。使用字典映射来自乔治梅森大学的语音口音档案, 来自各种语言背景的语音样本集合,到CMU的独特声音,它通过对输入单词进行替换,删除和插入来预测发音。

团队使用该模型生成一个语音数据集,它们被送入一个递归神经网络,试图摆脱不必要的声音并改变它们,以便它们不会偏离太远来自GAE单词版本。在用800000个样本进行训练后,它能够识别重音词,准确率为59%。

这是初步的研究,因为CMU词典包含的声音比GMU少,因此该模型只能学习CMU的20个语音概括中的13个。但该团队设法将CMU数据集的大小从单个重音的103000个语音转录增加到具有多个重音的100万个样本。

研究人员写道,“提出的模型能够学习以前由语音学家手工获得的所有概括。”

论文:arxiv.org/pdf/1807.03625.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档