专栏首页机器人网智能机器人语音识别技术

智能机器人语音识别技术

语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别,以及大词汇量的连续词识别。对于智能机器人这类嵌入式应用而言,语音可以提供直接可靠的交互方式,语音识别技术的应用价值也就不言而喻。 1 语音识别概述

语音识别技术最早可以追溯到20世纪50年代,是试图使机器能“听懂”人类语音的技术。按照目前主流的研究方法,连续语音识别和孤立词语音识别采用的声学模型一般不同。孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合。 语音的能量来源于正常呼气时肺部呼出的稳定气流,喉部的声带既是阀门,又是振动部件。语音信号可以看作是一个时间序列,可以由隐马尔可夫模型(HMM)进行表征。语音信号经过数字化及滤噪处理之后,进行端点检测得到语音段。对语音段数据进行特征提取,语音信号就被转换成为了一个向量序列,作为观察值。在训练过程中,观察值用于估计HMM的参数。这些参数包括观察值的概率密度函数,及其对应的状态,状态转移概率等。当参数估计完成后,估计出的参数即用于识别。此时经过特征提取后的观察值作为测试数据进行识别,由此进行识别准确率的结果统计。训练及识别的结构框图如图1所示。

图1 语音识别系统结构框图

1. 1 端点检测 找到语音信号的起止点,从而减小语音信号处理过程中的计算量,是语音识别过程中一个基本而且重要的问题。端点作为语音分割的重要特征,其准确性在很大程度上影响系统识别的性能。 能零积定义:一帧时间范围内的信号能量与该段时间内信号过零率的乘积。 能零积门限检测算法可以在不丢失语音信息的情况下,对语音进行准确的端点检测,经过450个孤立词(数字“0~9”)测试准确率为98%以上,经该方法进行语音分割后的语音,在进入识别模块时识别正确率达95%。

图2 检测结果的效果示意图 当话者带有呼吸噪声,或周围环境出现持续时间较短能量较高的噪声,或者持续时间长而能量较弱的噪声时,能零积门限检测算法就不能对这些噪声进行滤除,进而被判作语音进入识别模块,导致误识。图2(a)所示为室内环境,正常情况下采集到的带有呼气噪声的数字“0~9”的语音信号,利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声,之后为数字“0~9”的语音。 从图2(a)直观的显示出能零积算法在对付能量较弱,但持续时间长的噪音无能为力。由此引出了双门限能零积检测算法。 所谓的双门限能零积算法指的是进行两次门限判断。第一门限采用能零积,第二门限为单词能零积平均值。也即在前面介绍的能零积检测算法的基础上再进行一次能零积平均值的判决。其中,第二门限的设定依据取决于所有实验样本中呼气噪声的平均能零积及最小的语音单词能零积之间的一个常数。如图2(b)所示,即为图2(a)中所示的语音文件经过双门限能零积检测算法得到的检测结果。可以明显看到,最前一段信号,即呼气噪声已经被视为噪音滤除。 1.2 隐马尔可夫模型HMM 隐马尔可夫模型,即HMM是一种基于概率方法的模式匹配方法。它的应用是20世纪80年代以来语音识别领域取得的重要成果。 一个HMM模型可以表示为:

式中:π为初始状态概率分布,πi=P(q1=θi),1≤i≤N,表示初始状态处于θi的概率;A为状态转移概率矩阵,(aij)N×N,aij=P(qt+1 =θj|qt=θi),1≤i,j≤N;B为观察值概率矩阵,B={bj(ot)},j=1,2,…,N,表示观察值输出概率分布,也就是观察值ot处于状态j的概率。

1.3 模型训练 HMM有多种结构类型,并且有不同的分类方法。根据状态转移矩阵(A参数)和观察值输出矩阵(B参数)的不同有不同类型的HMM。 对于CHMM模型,当有多个观察值序列时,其重估公式由参考文档给出,此处不再赘述。 1.4 概率计算 利用HMM的定义可以得出P(O|λ)的直接求取公式:

式(2)计算量巨大,是不能接受的。Rabiner提出了前向后向算法,计算量大大减小。定义前向概率:

那么有   (1)初始化

  (2)递推

  (3)终止

式(2)表示的是初始前向概率,bi(o1)为观察值序列处于t=1 时刻在状态i时的输出概率,由于它服从连续高斯混合分布,故此值往往极小。根据大量实验观察,通常小于10-10,此值在定点DSP中已不能用Q格式表示。分析式(3)可以发现,随着时间t的增加,还会有大量的小数之间的乘法加法运算,使得新的前向概率值at+1更小,逐渐趋向于0,定点DSP采用普通的Q格式进行计算时便会负溢出,即便不发生负溢出也会大大丢失精度。因此必须寻找一种解决方法,在不影响DSP实时性的前提下,既不发生负溢出,又能提高精度。 2 DSP实现语音识别 孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合。 为了能实时控制机器人,首先需要考虑的是能够实现实时地语音识别。而考虑到CHMM的巨大计算量以及成本因素,采用了数据处理能力强大,成本相对较低的定点数字信号处理器,即定点DSP。本实验采用的是TI公司多媒体芯片TMS320DM642。定点DSP要能准确、实时的实现语音识别,必须考虑2点问题:精度问题和实时性问题。 精度问题的产生原因已经由1.4节详细阐述,这里不再赘述。因此必须找出一种可以提高精度,而又不会对实时性造成影响的解决方法。基于以上考虑,本文提出了一种动态指数定标方法。这种方法类似于科学计数法,用2个32 b单元,一个单元表示指数部分EXP,另一个单元表示小数部分Frac。首先将待计算的数据按照指数定标格式归一化,再进行运算。这样当数据进行运算时,仍然是定点进行,从而避开浮点算法,从而使精度可以达到要求。 对于实时性问题,通常,语音的频率范围大约是300~3 400 Hz左右,因而本实验采样率取8 kHz,16 b量化。考虑识别的实现,必须将语音进行分帧处理。研究表明,大约在10~30 ms内,人的发音模型是相对稳定的,所以本实验中取32 ms为一帧,16 ms为帧移的时间间隔。 解决实时性问题必须充分利用DSP芯片的片上资源。利用EDMA进行音频数据的搬移,提高CPU利用率。采用PING—PONG缓冲区进行数据的缓存,以保证不丢失数据。CHMM训练的模板放于外部存储器,由于外部存储器较片内存储器的速度更慢,因此开启CACHE。建立DSP/BIOS任务,充分利用BIOS进行任务之间的调度,实时处理新到的语音数据,检测语音的起止点,当有语音数据时再进入下一任务进行特征提取及识别。将识别结果用扬声器播放,并送入到机器人的控制模块。 实验中,采用如图3的程序架构。

图3 机器人识别软件框图 3 机器人控制 机器人由自然条件下的语句进行控制。这些语句描述了动作的方向,以及动作的幅度。为了简单起见,让机器人只执行简单命令。由手机进行遥控,DSP模块识别出语音命令,送控制命令到ARM模块,驱动左右机械轮执行相应动作。 3.1 硬件结构

机器人的硬件结构如图4所示。

图4 机器人硬件结构 机器人主要有2大模块,一个是基于DSP的语音识别模块;另一个是基于ARM的控制模块,其机械足为两滑轮。由语音识别模块识别语音,由控制模块控制机器人动作。 3.2 语音控制 首先根据需要,设置了如下几个简单命令:前、后、左、右。机器人各状态之间的转移关系如图5所示。其中,等待状态为默认状态,当每次执行前后或左右转命令后停止,即回到等待状态,此时为静止状态。

图5 机器人状态 语音的训练模板库由4个命令加10个阿拉伯数字共14个组成,如下所示。 命令:“前”、“后”、“左”、“右”; 数字:“0~9”。 命令代表动作的方向,数字代表动作的幅度。当执行前后命令时,数字的单位为dm,执行左右转弯命令时,数字的单位为角度单位的20°。每句命令句法为命令+数字。例如,语音“左2”表示的含义为向左转弯40°,“前4”表示向前直行4 dm。 机器人语音控制的关键在于语音识别的准确率。表1给出了5个男声样本的识别统计结果。

表1 识别统计结果 4 结语 工作中,成功地将CHMM模型应用于定点DSP上,并实现了对机器人的语音控制。解决了CHMM模型巨大计算量及精度与实时性之间的矛盾。提出了一种新的端点检测算法,对于对抗短时或较低能量的环境噪音具有明显效果。同时需要指出的是,当语音识别指令增多时,则需要定义更多的句法,并且识别率也可能会相应降低,计算量也会相应变大。下一步研究工作应更注重提高大词汇量时的识别率及其鲁棒性。

本文转载自网络

本文分享自微信公众号 - 机器人网(robot_globalsources)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 工人曝光特斯拉环境:压力大昏厥头晕痉挛,受折磨不敢说

    据英国《卫报》报道,特斯拉此前在加州菲蒙市收购了一座废旧工厂,然后将其变成了备受吹捧的“未来工厂”,以《X战警》中角色命名的巨型机器人在巨大的工厂内塑造和折叠着...

    机器人网
  • Nuance声龙驾驶:打造人性、自然的人车交互

    想象一下,未来某一天,您的汽车、您的家、以及外面世界实现了无缝连接。您只要说出想做的事情便可以获取信息、娱乐和更多……多年来,从嵌入式和基于云的语音识别、自然语...

    机器人网
  • ;特斯拉在中国建厂,是乌龙传闻还是必然趋势?

    传言最终在澄清中被攻破。最新的消息显示,特斯拉官方回应,特斯拉正在与上海市政府探讨在当地建立汽车制造工厂的可能性,特斯拉仍将继续对潜在工厂选址进行评估。这意味着...

    机器人网
  • 科大讯飞,站在十字路口

    在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,...

    罗超频道
  • 超过十分之一的报告篇幅给语音,互联网女皇为何看好麦克风?

    KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔的互联网趋势报告于今天正式发布。毫不夸张地说,这份报告是互联网行业分析的“超级碗”,它用200多页的Keyn...

    罗超频道
  • 语音巨头时代来临!谁将是中国Siri?

    大约一年前,中国移动以13.6亿人民币的代价获得了科大讯飞15%的股权,后者股价一路攀升,从不足30元到最高61元,成为一大牛股,市值高达240多亿人民...

    罗超频道
  • AI语音交互领域常用的4个术语

    语音合成标记语言的英文全称是Speech Synthesis Markup Language,这是一种基于XML的标记语言,可让开发人员指定如何使用文本转语音...

    曼孚科技
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐
  • 干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

    AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券