开发 | Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了

AI科技评论按:自动语音识别(Automatic speech recognition,ASR)领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了TensorFlow。这一举措让Kaldi的开发者可以使用TensorFlow来部署他们的深度学习模块,同时TensorFlow的用户也可以更为方便地使用Kaldi的各种经验。

一、传统ASR有哪些问题?

建立一个可以在各种语言、口音、环境和对话类型中理解人类语言的ASR系统,是一项非常复杂的任务。传统的ASR系统是将许多单独的模块集成一个流水线,其中每个模块都在前一个模块的输出上进行。原始音频数据从一端进入,然后从另一端输出识别语音转录内容。典型的基于统计模式识别方法的语音识别系统一般会由信号处理及特征提取模块、声学模块、发音词典、语言模块和解码器等组成。在Kaldi工具包中,为了支持越来越多的终端用户应用程序,集成了更多的模块。

在过去几年里,随着深度神经网络的发展,许多现有的ASR模块都被深度神经网络所取代,这种取代使得单词识别精度得到很大的提高。但是在开发生产级的ASR系统时,仍然有许多问题需要克服:

  • 算法——深度学习算法在一些问题,例如声学环境(噪声)、特定语言发音、词汇范围等方面能够给出非常好的结果,但部署的过程中并不总是能很好的适应;
  • 数据——构建不同语言、不同声学环境的ASR系统需要大量的多种类型的数据,但我们可能没有恰好需要的这种数据。
  • 规模——一般能支持大量使用和许多种语言的ASR系统,通常会耗费大量的计算。

我们以ASR系统中的语言模块来说。语言模块是大多数先进的ASR系统的关键部分,他们主要依靠统计模型来揭示语言单元的内在统计规律,为整个系统提供了语言背景,有助于预测正确的单词序列,并且能够区分听起来相似的单词。随着近来机器学习方面的突破,语音识别开发人员正在使用基于深度学习的语言模型,被称为神经语言模型。这种神经语言模型的结果相比传统统计方法有显著的提升。但神经语言模型的训练和部署都是极为复杂且非常耗时的。

二、将 TensorFlow 集成到 Kaldi 中

总部位于西雅图的IntelligentWire公司是一家通过云软件来弥合实时手机通话和业务应用之间差距的公司。他们的目标就是将企业代表与客户进行的数千次对话内容实时分析和处理,并自动处理数据输入和响应请求等任务。为了使ASR系统在这种情况下有用,就必须保证它能以非常低的延迟、提供非常准确的转录,并且计算规模不能很大以有效地支持数千个并发对话。在这种需求下,IntelligentWire公司的Yishay Carmiel和Hainan Xu带领的两支团队意识到这些困难,并共同合作完成了Kaldi和TensorFlow的集成。

将TensorFlow集成到Kaldi后,他们对ASR的开发周期减少了一个数量级。例如上面所说的语言模块,如果将TensorFlow应用到这个模块,那么从模型道概念验证可能只需要几天,而不是几个星期;对于整个ASR系统,开发周期也从几个月减少到了几个星期。此外,TensorFlow的集成也使Kaldi所需要的数据大为简化。

将TensorFlow作为一个模块集成到Kaldi中,对于Kaldi研发人员来说,好处是巨大的。同样的,这种集成也让TensorFlow的开发人员能够轻松地访问强大的ASR平台,并且能够将现有的语音处理流程(如Kaldi强大的声学模型)纳入到机器学习应用程序中。Kaldi中的那些用于培训TensorFlow模型的模块可以不影响整体地进行替换,这对于扩展极为方便。此外,现在已经用到生产中的Kaldi系统可以用来评估这个集成模型的质量。

我们希望Kaldi-TensorFlow的集成能够将这两个充满活力的开放源码的开发社区更加贴近,共同支持各种新的基于语言的产品和研究的突破。

AI科技评论注——

集成模型代码:https://github.com/kaldi-asr/kaldi

示例:

https://github.com/kaldi-asr/kaldi/tree/master/egs/ami/s5/local/tfrnnlm

本文为AI科技评论根据谷歌开发者Raziel Alvarez的博客《Kaldi now offers TensorFlow integration》整理而成,Alvarez是谷歌的研究工程师,IntelligentWire的创始人。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【CNN超越RNN】DeepL机器翻译碾压谷歌、Facebook和微软

【新智元导读】一家名叫DeepL的公司声称他们的翻译工具已经超过谷歌、微软、Facebook等大公司的翻译工具,本文提供了作者亲测的评价。 谷歌、微软、Face...

3525
来自专栏机器之心

教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤

选自Kaggle 作者:Ben Hamner 机器之心编译 参与:黄小天 上个月,Kaggle 联合创始人兼 CTO Ben Hamner 在 Quora 上...

2765
来自专栏AI研习社

Facebook 开源 CV 开发平台 Detectron,打包支持各种物体识别算法

Facebook 人工智能实验室今日宣布开源自己的顶级物体检测研究平台 Detectron,为广大研究人员们未来的新计算机视觉研究课题提供灵活、快速的模型实现和...

3926
来自专栏大数据挖掘DT机器学习

微博推荐算法如何设计

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早...

69212
来自专栏云市场·精选汇

如何细致地为用户提供业务知识服务?

近年随着深度学习及强化学习技术的进一步深入,智能问答机器人所依赖的知识库构建与维护成本也随之减少。大数据分析和智能语音技术在客服场景深入应用,AI正在变革客服行...

1133
来自专栏新智元

Hassabis 论文:为智能体设计“不需要模型的情景控制系统”

【新智元导读】谷歌 DeepMind 创始人 Demis Hassabis 等人近日发表论文,延续其拓展的辅助学习系统理论,为智能体设计了一个“不需要模型的情景...

3187
来自专栏CreateAMind

40年认知架构研究概览:实现通用人工智能的道路上我们已走了多远?

在这篇论文中,我们呈现了关于过去 40 年认知架构(cognitive architecture)研究的宏观概述。尽管目前已有架构的数量已经有数百种了,但绝大多...

2011
来自专栏about云

数据挖掘快速入门

问题导读 1.什么是数据挖掘? 2.机器学习 与 数据挖掘在什么地方? 3.数据挖掘能解决什么问题? 1 数据挖掘 数据挖掘(Data Mining,简...

3688
来自专栏机器之心

前沿 | 物理学家提出新算法:将量子机器学习扩展到无限维度

选自phys.org 作者:Lisa Zyga 机器之心编译 参与:吴攀、李亚洲 物理学家已经开发出了一种可以处理无限维度(infinite dimensio...

2948
来自专栏ATYUN订阅号

OpenAI和DeepMind的AI智能体在两个Atari游戏中表现优于人类

通过观看人类来学习玩游戏的智能体研究又有了新进展。OpenAI和DeepMind在发表的一篇论文“Reward learning from human pref...

1183

扫码关注云+社区

领取腾讯云代金券