首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

得助智能:语音识别的原理是怎样的呢?

1、语音识别实现原理:数据库

概括的说,语音识别的原理其实并不难理解,原理上和指纹识别的原理相同:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。

如果你对语音识别的兴趣不高,那么知道这样的大致原理已经足够。事实上,语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别,这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。

庞大的语言数据库难以放置于移动端,这也是几乎所有手机语音助手使用时需要联网的原因。语音识别发展到现在也不是没有离线版,但我们不难发现,离线版的准确率是要远远低于在线版的。另外,刚才我们提到不少语音厂商都宣称准确率达到90%以上,这可以说是十分了不起的,不夸张的说,这时候每提升1个百分比的准确率,都是质的飞跃。这不仅要相当完善的数据库,满足这样的准确率还得效率较高的识别提取算法和自学习系统。

2、语音识别实现原理:算法和自学习

刚才我们提到了识别提取算法和自学习系统,在这里我们不妨简单了解一下它们的工作过程:首先语音识别系统对收集到的目标语音进行预处理,这个过程就已经十分复杂,包含语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等。之后对处理的语音进行特征提取。

我们知道,声音的本质是震动,它可以由波形表示,识别则需要对波进行分帧,多个帧构成一个状态,三个状态构成一个音素。英语常用音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调音调。之后通过音素系统合成单词或者汉字。当然,之后的匹配和后期内容处理也需要相应算法来完成。

自学习系统则更多的是针对数据库来说。将语音转换成文本的语音识别系统要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。这两个数据库需要提前对大量数据机型训练分析,也就是所说的自学习系统,从而提取出有用的数据模型构成数据库;另外,在识别过程中,自学习系统会归纳用户的使用习惯和识别方式,然后将数据归纳到数据库,从而让识别系统对该用户来说更智能。

更进一步总结一下整个识别过程:对采集的目标语音进行处理,获取包含关键信息的语音部分——提取关键信息——识别最小单元字词,分析规定语法排列——分析整句语义,将关键内容断句排列,调整文字构成——根据整体信息修改出现轻微偏差的内容。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190918A0DHSF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券