【深度】小度VS最强大脑声纹识别战成平局,吴恩达详解技术原理

【新智元导读】 2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。本文带来百度首席科学家吴恩达对百度声纹识别技术的全面解读,本次比赛百度使用了两个不同的算法模型:DNN-ivector 和基于端到端深度学习的说话人信息提取。另外,吴恩达还对深度学习当下的发展态势以及对抗生成网络进行了评论。

2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。在总比分上,小度凭借着上周险胜王峰,继续保持领先优势。这场人机大战依然留有悬念,双方将在下周迎来终极决战。

本周比赛的项目是凭借既有声音片段识别发声者身份,也就是所谓的声纹识别(Speaker Recognition)。比赛的设置是,最强大脑“听音神童”孙亦廷和小度需要凭借3位目标对象残缺的声音资料,在性别相同、年龄相仿、声线极为相似的专业合唱团中将她们分别找出,找出多者获胜。

从现场的情况来看,这一任务难度颇高,人和机器都只正确地找出了一位目标对象,正确率只有33.33%。

2个模型,2万人数据,5千小时训练

1月13日的媒体见面会上,百度首席科学家吴恩达(Andrew Ng)介绍了百度在此次比赛中所使用的人工智能技术:包含两个模型,一个是DNN-ivector,另一个是基于端到端深度学习的说话人信息提取。

DNN-ivector是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观地说,就是在挖掘“不同的人在发同一个音时的区别是什么”。

百度提供的资料显示,他们首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示。这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元统计得到相应的信息。这样,对于每一句话就会得到一个高维的特征矢量。

在得到高维的特征矢量后,会采用一种称之为Total variability的建模方法对高维特征进行建模,

M=m+Tw

其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个 ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。

在实际中,百度训练了一个高精度的深度神经网络来进行发声单元的对齐,然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间,大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。

吴恩达介绍说,百度参加本轮次比赛的声纹识别模型一共包含了20000个人的声音数据,模型训练时间超过5000个小时。

第二个模型,基于端到端深度学习的说话人信息提取算法。这是一种纯粹的数据驱动的方式。通过海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。第一期的人脸识别也使用类似算法。

这一模型的训练,使用了数万个ID。

最终,小度的识别结果出自两套系统最后在得分域上进行的加权融合。

吴恩达:深度学习短期内还会更热

声纹识别中,可用于处理和存储声纹的技术非常多,包括频率估计 (Frequency Estimation),隐藏马尔科夫模型,高斯混合模型,模型匹配算法、神经网络、矩阵表征、矢量量化以及决策树等等。一些系统中还用到了一些降噪技术 。

吴恩达也表示,未来百度还将训练更大的模型,可能不止采纳两个模型的方案。

不过,在新智元问到深度学习是否还将主导人工智能时。吴恩达说,深度学习技术现在很火,而且还会变的越来越火。未来肯定会有新的技术出现,但是具体是什么,现在他也不能预测。

谈到2016年备受关注的对抗生成网络(GAN),吴恩达表示,这一技术有很大的潜力,但是目前主要还停留在研究阶段。

声纹识别技术应用

声纹技术在安防、金融和C端消费应用,比如手机上,都有着广泛的应用场景。目前,声纹识别技术可用但不限于以下几个领域:

  1. 金融领域反欺诈(用声纹识别确认用户信息,提高客服和系统反欺诈的能力)
  2. 客服呼叫中心,快速定位用户身份等;
  3. 智能硬件的声纹识别能力,让机器人知道自己在和谁对话以及声纹唤醒能力;
  4. 安全领域的声纹认证,类似于人脸闸机;
  5. 个性化语音识别和语音合成的辅助。

近年来,在市场上也看到了一些声纹技术应用的产品,比如支持声音解锁的智能手机。但是,与其他人工智能技术一样,声纹技术也面临着潜力巨大,但应用困难的问题,目前仍然没有成熟的产品出现。

百度大脑开放

在记者会上,新智元了解到,近日百度大脑官网(ai.baidu.com)全新改版上线,百度大脑不止小度可以拥有,现已全面开放给所有开发者。

改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外,新版网页还新增加了AR 增强现实的功能技术,AR 内容平台能提供高效灵活的一站式的 AR 行业解决方案,贯穿各行业 AR 的内容创作、内容管理全流程服务。

此外,13类场景化技术服务、超过20种功能调用,相比原版网页,新版网页在对每一项技术分类上做得更加细致,能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示,并提供以 API 或 SDK 的形式的接口服务。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

1403
来自专栏新智元

计算机视觉导览:如何快速上手,是否该读博?

【新智元导读】 Learning OpenCV 3 Application Development 一书的作者 Samyak Datta 在一次专访中解答了初学...

4193
来自专栏AI科技评论

重磅 | 美国西北大学新系统在智力测试中超越75%民众,人类的推理能力也不及AI了?

你听过瑞文氏标准推理测试(Raven’s Progressive MatriCES)么?上面这张图就是一道标准的瑞文氏测试题目,是不是很眼熟?在公务员考试、一般...

3495
来自专栏华章科技

写给新人数据挖掘基础知识介绍

在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术的概念和技术就应运而生了。

832
来自专栏Bingo的深度学习杂货店

图像识别——突破与应用

最近,图像识别领域发布了白皮书,简单翻译一下做个总结。 ---- 目录 [1] Introduction      1.1 Exponential Growt...

1.2K11
来自专栏人工智能头条

神经网络最大的优点,以及最严重的缺陷

最近条子说他弄个了个新零售的神经网络。一般办公室里的半自动贩售便利柜,都是扫码以后,靠自觉取产品。条子是闭着眼睛,靠神经取产品…

1461
来自专栏华章科技

写给新人数据挖掘基础知识介绍

对企业来,堆积如山的数据无异于一个巨大的宝库。但是如何利用新一代的计算技术和工具来开采数据库中蕴藏的宝藏呢?

802
来自专栏大数据文摘

扎克伯格预言即将成真:计算机可解读图片内容

26313
来自专栏数据科学与人工智能

【数据挖掘】写给新人数据挖掘基础知识介绍

一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数...

24610
来自专栏AI科技大本营的专栏

深度学习2016年度回顾:三大技术和三大趋势

---- 作者:简·布斯尔克(Jan Bussieck) 编译: AI100 原文地址: http://www.deeplearningweekly.com/b...

33110

扫码关注云+社区