学界 | 百度提出使用GAN构建语音识别新框架

选自arXiv

作者:Anuroop Sriram等

机器之心编译

参与:李亚洲、李泽南

百度最近发表的一篇论文提出使用生成对抗网络(GAN)目标来实现鲁棒的语音识别系统,作者表示新框架不依赖信号处理中经常需要的领域专业知识或简化假设,直接鼓励以数据驱动的方式产生鲁棒性。更多细节内容,请查看论文原文。

自动语音识别(ASR)支持的语音助手、智能音箱等逐渐成为我们日常生活的一部分,例如 Siri、Google Now、Cortana、Amazon Echo、Google Home、Apple HomePod、微软 Invoke、百度 Duer 等等。虽然最近的一些研究突破极大地改进了 ASR 技术,但这些模对混响、环境噪声、口音等人类无障碍就能识别合理变化,都有着相当大的性能衰减。

这些问题中的大部分都可通过在大量数据上进行训练来减轻。但是,在流程不稳定的情况下,例如口音、精确的数据增强不行的情况下,收集高质量的数据集会非常费时、昂贵。以往 ASR 相关文献都有着细致的手动工程前端-后端和数据驱动方法,从而尝试提升质量差的数据价值。虽然这些技术在各自的环境中相当有效,但在实际中因为前面提到的原因,泛化到其他形态时并不好。也就是,从基本原则上,很难在混响与背景噪声下建模。已有的技术没有直接诱导出 ASR 的变体或者不可扩展。同时,也因为语音的时序特性,同一文本的两种不同发音需要对比校准。

本论文中,研究者使用生成对抗网络(GAN)框架,以可扩展、端到端的方式提高序列到序列模型的鲁棒性。编码器组件作为 GAN 的生成器,训练以输出噪声音频样本和干净音频样本之间不可分辨的嵌入。由于没有限制假设,这种新型鲁棒训练方法理论上能够在没有对齐或复杂的推断流程,甚至没有增强的情况下提高鲁棒性。研究者还使用编码器距离目标函数进行实验,以明确限制嵌入空间,展示了获取隐藏表征级别的不变性是鲁棒性自动语音识别有前途的方向。

论文:ROBUST SPEECH RECOGNITION USING GENERATIVE ADVERSARIAL NETWORKS

论文链接:https://arxiv.org/abs/1711.01567

本论文描述了一个通用、可扩展且端到端的框架,使用生成对抗网络(GAN)目标来实现鲁棒的语音识别。编码器经过经过将噪声音频映射到与干净音频相同的嵌入空间的学习方法训练后提升了不变性。与此前的方法不同,新的框架不依赖信号处理中经常需要的领域专业知识或简化假设,直接鼓励以数据驱动的方式产生鲁棒性。我们通过实验展示了新方法可以在 vanilla 序列-序列模型中提升远场语音识别性能,而无需专门的前端或预处理过程。

表 1. 百度论文中增强器模型(enhancer model)的架构。其中,鉴别器的损失可以是 L1-distance 或 WGAN 损失。整个模型使用鉴别器损失和交叉熵损失进行端到端训练。研究人员使用 RIR 卷积来模拟远场音频。我们也可以使用不同条件下记录的相同语音来训练这个模型。

算法 1. WGAN 增强训练。在百度的实验里,序列到序列模型在训练中使用了 Adam 优化器。如果 x 可以生成 x tilde,序列到序列模型就也可以使用数据增强。

表 1. 编码器架构

表 2. 评论的架构(特征)×(次数)

表 3. 语音识别系统在华尔街日报语料库上的表现

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

CVPR 2018,盘点我心中的创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

1050
来自专栏有趣的Python

1- Python3入门机器学习经典算法与应用-课程介绍

python3玩转机器学习 到底什么是机器学习? 让机器去学习 传统的算法课程中写的代码,是让机器去执行 ? mark 最早的机器学习应用 - 垃圾邮件分...

8619
来自专栏Spark学习技巧

Emdedding向量技术在蘑菇街推荐场景的应用

3333
来自专栏AI科技评论

预热 | 英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛(ICLR 2017)

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评...

3649
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

933
来自专栏CSDN技术头条

揭秘深度强化学习

尽管监督式和非监督式学习的深度模型已经广泛被技术社区所采用,深度强化学习仍旧显得有些神秘。这篇文章将试图揭秘这项技术,并解释其背后的逻辑。受众读者主要是有机器学...

2308
来自专栏目标检测和深度学习

深度学习简述

作为人工智能领域里最热门的概念,深度学习会在未来对我们的生活产生显著的影响,或许现在已经是了,从 AlphaGo 到 iPhone X 上的人脸识别(FaceI...

3036
来自专栏智能算法

深度学习如何调参?

对于深度学习本人也是半路出家. 现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间了. 我的回答可能更多的还是侧重工业应用, 技术上只限制在...

944
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数据科学的缺陷

业内人士都知道,数据科学有很多缺陷。 模型是未知的 建立机器学习模型的目的是为了应用,而不是理解。 能解释清楚的也只有那些最简单的模型。线性模型第一眼看起来的...

2775
来自专栏ATYUN订阅号

每个机器学习项目必须经过的五个阶段

机器学习和预测分析在我们今天的生活中非常普遍。它几乎可以影响我们所做的一切,包括零售和批发定价,消费者习惯和行为,市场营销,娱乐,医药,物流,游戏,AI语音识别...

3915

扫码关注云+社区

领取腾讯云代金券