简单看懂声纹识别技术的原理与迭代

声波识别,是组成语音识别体系的关键所在,在初步了解了声波识别之后,让我们一起跟随林大学者的脚步,学习声纹识别技术的原理与迭代。他们的研究又有怎样的突破呢?

北京林业大学人工智能研究所,致力于采用AI+机器学习的研究方式,将深度学习应用在声纹识别领域中。目前已取得了突破性的进展,在声波识别的系统性能以及精确度上都有显著的提升。本期为您带来声波识别技术的原理与技术迭代。

1、安全的“生物识别码”

在这个移动互联网蓬勃发展的时期,人们不用互相见面就可以完成很多事情,

传统密码或者秘钥,这种解决方案需要你记住或者存起来,安全性不受保障,还容易被黑客利用各种手段攻击。

好在我们每个人身上都长满了“活密码”,指纹、脸、声音、眼睛等等,都是人和人之间相互区分的独一无二的标识,这种被称为“生物特征”。发出声音时,人的声波是一种可以反映当前人身份的生物特征,参考“指纹”的命名方式,我们可以叫它“声纹”。

2、声纹识别的独特性

声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。

声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。

作为独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。

“未见其人,先闻其声”是人类通过声音去识别另一个人身份的真实描述,朋友间甚至通过你电话里的一个“喂”字就知道是你,这是我们人类经过长期进化所获得到的超常的能力。

3、声纹识别系统的设计原理

虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1 和 1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。

1:1的识别系统

对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker Verification)。

1:N的识别系统

如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker Identification)。

说话人确认和说话人辨认

声纹识别系统的工作流程

4、声纹识别的技术迭代

使用最多的还是MFCC特征,也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面,目前还是N.Dehak在2009年提出的iVector框架一统天下,虽然在深度学习大红大紫的今天,声纹领域也难免被影响,在传统的UBM-iVector框架下衍化出了DNN-iVector,也仅仅是使用DNN(或者BN)提取特征代替MFCC或者作为MFCC的补充,后端学习框架依然是iVector。

下图为一个完整的声纹识别系统的训练和测试流程,可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段,可以使用BottleNeck特征取代或者补充MFCC特征,输入到iVector框架中训练模型。

声纹识别算法的完整训练和识别框架

使用BottleNeck特征训练iVector模型

在系统层面,不同的特征及模型,可以从不同的维度刻画说话人的声音特征,加上有效的分数规整,将各子系统融合能有效的提高系统的整体性能。

AI-Union联盟成员

北京林业大学

人工智能研究所

北京林业大学信息学院于2001年成立,其历史可以追溯到1984年成立的计算中心和1986年成立的国内第一个林业信息管理专业,是一个发展迅速、年轻而有朝气的学院。学院秉承“结构、特色、质量、创新”的八字方针,紧随国家战略脚步,全面部署人工智能各领域研究。本系列内容由北京林业大学柯登峰老师,王岩硕士等研究员提供指导。

我们将在后续的系列中为您带来林大专家们在声纹识别领域的突破性研究成果,如果您有合作意向或者想更深入了解,请联系我们!

如果你对声波识别有想了解的内容,欢迎留言告诉我们,来自联盟的学者将您带来最专业的解读。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180408B16QS700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券