语音识别的相关知识

概 述

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),(迅 捷ocr文字识别软件)其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

主 要 分 类

根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。

另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

识 别 方 法

语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

存 在 问 题

1、口音和噪声 语音识别中最明显的一个缺陷就是对口音和背景噪声的处理。 2、语义错误 通常语音识别系统的实际目标并不是误字率。我们更关心的是语义错误率,就是被误解的那部分话语。 3、单通道和多人会话 一个好的会话语音识别器必须能够根据谁在说话对音频进行划分,还应该能弄清重叠的会话(声源分离)。 4、其他领域变化 如:来自声环境变化的混响、硬件造成的伪影、音频的编解码器和压缩伪影、采样率的变化、会话者的年龄不同。 5、上下文相关联判断识别 人类聊天容易基于上下文做判断。机器目前很难做到。

和自然语言识别的区别

语音识别是自然语言识别的一个方向。

广义的“自然语言处理”包含了“语音”,或者说“语音”也是“自然语言”的一种。狭义的“自然语言处理”是指处理及理解文本,简单的理解就是:语音识别的结果成了自然语言处理的原材料来源之一,自然语言处理的结果又成了语音生成的原材料。 它是区别指令式语音而命名,其基本原理都是一致。自然语音识别亮点是自然语言理解功能,即用户可以按照个人的语言习惯,用自己惯用的语气、惯用的词,将需要被识别的语音任务说出来即可。自然语音识别与指令式语音识别主要区别是词库大小及处理方式,指令语音所有处理都是本地进行,自然语音识别目前基本都是采用云处理方式,这样其语音库及处理能力是指令语音无法比拟的。

原文发布于微信公众号 - 自动化控制技术控(zidonghuakongzhi)

原文发表时间:2019-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券