专栏 | 极限元CTO温正棋谈语音质检方案:从关键词检索到情感识别

机器之心专栏

作者:温正棋

极限元智能科技

本文作者温正棋为极限元智能科技 CTO 、中国科学院自动化研究所副研究员,毕业于中国科学院自动化研究所,先后在日本和歌山大学和美国佐治亚理工学院进行交流学习,在国际会议和期刊上发表论文十余篇,获得多项关于语音及音频领域的专利。其「具有个性化自适应能力的高性能语音处理技术及应用」获得北京科学技术奖。在语音的合成、识别、说话人识别等领域都有着多年深入研究经验,并结合深度学习技术开发了多款语音应用产品。

为了提高客户满意度、完善客户服务,同时对客服人员工作的考评,很多企业会对此采用质检的方式来保证其服务质量。以服务行业为例,呼叫中心是一个促进企业营销、市场开拓并为客户提供良好的交互服务系统,其位置相当重要。传统的质检方法需要质检人员通过人工测听的方式进行抽检;人工抽检方法工作量大且效率低,难以有效评价客服人员的服务质量。

随着人工智能技术的发展,语音和自然语音处理技术不断取得突破,采用智能化的方法对电话语音中的内容进行深层次的分析,可以有效的节约人力成本并提高工作效率。语音质检方案主要涉及语音关键词检索、音频对比、情感识别等核心技术。

1 语音关键词检索

1.1 语音识别声学模型

随着深度学习的兴起,深层神经网络也应用到了语音识别中的声学建模,通过深层神经网络模型替换 GMM-HMM 模型里的 GMM 模型,HMM 模型中的状态转移矩阵部分不变。DNN 通过在输入端进行扩帧,从而能够利用上下文信息,同时这种模型具有较强的非线性建模能力,但 DNN 的扩帧是有限的,所以它能够利用的上下文信息是有限的。针对这一问题提出了基于 RNN 的声学模型,RNN 能够更充分的利用历史信息进行声学模型建模。但是在 RNN 训练过程中会存在梯度消失和梯度膨胀的问题,梯度膨胀可以在训练过程中加一些约束条件解决,当梯度超过一定值以后设定一个固定值;针对梯度消失问题,比较有效的解决方法是将里面的 RNN 单元变成长短时记忆模型 LSTM,这种模型的缺点是会增加计算复杂度,这也是在构建声学模型时需要考虑的问题。CNN 是另一种比较主流的声学模型,这种模型中包含的参数较少,谷歌、微软、IBM 等企业均尝试使用非常深的 CNN 模型,其识别性能超过其它深层神经网络。

CTC 是一个训练准则,在传统的基于深度学习的声学模型输出中,每个 phone 可能包含十几桢甚至更多桢,因为它并不是一个尖峰,但是通过 CTC 训练会把它变成一个尖峰;CTC 可以将每一帧变成一个 blank 帧或者对应的建模单元(音素、音节等),而每个建模单元只需要对应几帧就可以了。在解码的时候可以降低对 black 桢的搜索宽度,这样可以显著的增加解码速度。减少解码帧有两种方法,一种是通过跳帧的方法,另一种在解码过程中动态调整 beam 值,特别是遇到空白桢的时候把并 beam 值减少。

1.2 基于语音识别的关键词检索

基于语音识别的关键词检索是将语音识别的结果构建成一个索引网络,然后把关键词从索引网络中找出来。从图 1 中可以看到,首先将语音数据进行识别处理,从里面提取索引构建索引网络,进行关键词检索的时候,我们会把关键词表在网络中进行搜索,找到概率最高的,输出其关键词匹配结果。

图1. 基于语音识别的关键词检索

构建检索网络是语音关键词检索的重要环节。如图 2 所示,在第一个时间段内(w1、w3、w6、w7),这句话被识别成了四个不同的词,语音识别只能给出一条路径,但在语音关键词检索网络中可以从四个结果中进行筛选。

图 2 构建检索网络示意图

确定关键词检索网络后,接下来进行的是关键词检索。关键词检索可以基于音节信息,首先将用户设定的关键词文本解析成音节序列,再从检索网络中找出匹配结果,相比直接对文本结果进行检索,这种方法的容错性更强,而且关键词检索中的声学模型可以是基于 CTC 的模型,因此,计算量更小,执行效率更高,更适用于语音质检这种海量数据检索的应用场景。

2 音频对比

音频比对是指从音频信号提取特征,通过特征进行比对的方法进行有害信息检索的方法。该方法的核心在于提取的特征值需要满足一定的要求,比如抗噪性、转换不变性、鲁棒性、快速性等特点,主要是为了满足同一音频能够在不同声道下进行准确检索。传统的 MFCC、FBANK 等声学特征已经不能满足音频比对任务的需求。图 3 是一个基于频谱最大值来建模的音频比对方法。在完成最大值点完成建模后,需要进行特征的构建。而特征构建是通过最大值点之间的距离来建模,例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。有了上述音频特征之后,就可以对两个不同音频进行检索,最大相似度的地方就是相似点,这种技术最适用于文本内容无关的录音片段的检索。

图 3. 基于频谱最大值建模的音频比对方法

3 情感识别

语音是人类交际的最重要的工具之一。人们在进行自然口语对话时,不仅传递声音,更重要的是传递说话人的情感状态、态度、意图等。一般的情感语音识别系统框图如图 4 所示。根据情感模型的不同,情感语音识别主要分为离散情感识别和连续情感语音识别。

图 4. 语音情感识别典型系统框图

离散情感识别是一个典型的模式分类问题,各种传统的分类器均被广泛应用于语音情感识别系统。例如隐马尔科夫模型、高斯混合模型、支持向量机,人工神经网络等。维度情感识别一般被建模为回归预测问题。在机器学习算法层面,根据是否考虑序列上下文信息可将现有方法分为静态机器学习算法和动态机器学习算法。在静态机器学习算法中,AdaBoost、高斯混合模型、人工神经网络、支持向量回归等广泛应用于维度情感识别中序列单元的回归问题。鉴于维度情感的序列标注情况,序列上下文信息有助于提高情感识别性能,因而更多的工作集中于动态机器学习算法。随着深度学习技术的发展,基于 LSTM-RNN 的系统便被更加广泛的应用于维度情感识别领域。

情感识别解决方案通过分析不同情感状态和语音声学参数的关联关系,抽取出鲁棒声学特征参数,综合考虑不同人对同一段语音的情感感知结果,建立语音情感识别模型。为了提高语音情感识别的鲁棒性,采用非线性建模方法建立情感语音分析模型,有效的解决了噪声环境下情感语音分析问题。针对情感识别中的时序建模问题,采用一种基于特征层建模和决策层建模相结合的多尺度时序建模方法。在特征层实现短粒度的时序建模。在决策层实现更长粒度的时序建模,并与特征层的时序建模实现相互补充。通过上述改进,有效的提高了语音情感识别的准确率,可以对通话者的情感状态进行动态的捕获和跟踪。

极限元智能科技在智能语音、计算机视觉、自然语言处理、大数据分析等技术领域有多年技术积累,推出了一些系列云端和终端的跨平台 AI 技术解决方案,产品和服务广泛应用在教育、安全、交通、泛娱乐等多个行业。其中,成熟的音频检测技术落地场景更是涉及到反电信诈骗、公安技侦、互联网音视频有害信息检测、呼叫中心录音质检等多个方面。

本文为机器之心专栏,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思

在开始学习python大数据之前,我们先要搞清楚人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思。 会用30多堂课的内容带大家学习python、数据...

50790
来自专栏AI研习社

博客 | TensorFlow系列专题(一):机器学习基础

1956年的8月,美国达特茅斯学院(Dartmouth College)举行了一次研讨会,这次会议由约翰麦卡锡等人发起,会议上约翰麦卡锡首次提出了“人工智能”这...

9120
来自专栏灯塔大数据

深度|一篇文章搞懂人工智能、机器学习和深度学习之间的区别

2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源。这两年在不管在国内还是在国外,人工智能、机器学习仿佛一夜之前传遍大街小巷。 概...

408100
来自专栏数据派THU

独家 | 一文了解强化学习的商业应用

DeepMind开发的AlphaGo(用于下围棋的AI系统)的出现引起了强化学习的热潮。从那之后,许多公司开始投入大量的时间、精力来研究强化学习。目前,强化学习...

17930
来自专栏机器之心

Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会。会上以及随后受邀前往清华时,他给出了题为「深度学习通往...

8520
来自专栏机器人网

机器人视觉与计算机视觉:有什么不同?

机器人视觉、计算机视觉、图像处理、机器视觉和图形识别,这几者之间到底有神马区别呢? 要弄清楚他们哪一个是哪一个,有时候也真的是容易混淆的。接下来看看这些术语的...

34440
来自专栏机器之心

业界 | 让机器人学会理解语义概念:谷歌提出深度视觉新技术

选自Google Research Blog 作者:Sergey Levine 机器之心编译 参与:黄小天、路雪 近日,谷歌官方博客上发表了一篇题为《Teach...

38270
来自专栏机器之心

学界 | 不设目标也能通关「马里奥」的AI算法,全靠好奇心学习

通过与任务匹配的奖励函数最大化来训练智能体策略。对于智能体来说,奖励是外在的,并特定于它们定义的环境。只有奖励函数密集且定义良好时,多数的 RL 才得以成功实现...

10510
来自专栏机器之心

GMIS 2017 | 腾讯AI Lab副主任俞栋:语音识别研究的四大前沿方向

机器之心整理 演讲者:俞栋 5 月 27-28 日,机器之心在北京顺利主办了第一届全球机器智能峰会(GMIS 2017),来自美国、加拿大、欧洲,香港及国内的众...

42180
来自专栏AI科技评论

腾讯 AI Lab 主任张潼博士:机器学习里的优化问题

AI 科技评论按:日前,在由上海财经大学交叉科学研究院(RIIS)主办,杉数科技有限公司协办的「现代运筹学发展讨论会」上,腾讯 AI Lab(腾讯人工智能实验室...

39190

扫码关注云+社区

领取腾讯云代金券