前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >语音识别训练时间由7天降至11.5小时,IBM提出分布式深度学习技术

语音识别训练时间由7天降至11.5小时,IBM提出分布式深度学习技术

作者头像
机器之心
修改2019-08-13 10:00:06
7300
修改2019-08-13 10:00:06
举报
文章被收录于专栏:机器之心机器之心

选自 venturebeat

作者: KYLE WIGGERS

机器之心编译

参与:淑婷、杜伟

语音识别系统构建过程通常由两部分组成:训练和识别,而训练需要对预先收集的语音、文本等数据进行处理,获取语音识别系统所需的模型。因而,训练时间和模型大小至关重要。IBM 在其新发布的论文中提出一种异步分散并行随机梯度下降的分布式处理架构,将语音识别训练时间缩短到了 11.5 小时。

可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)单词文本的语料库,以及能够在合理时间内处理这些数据的强大硬件。

为了减轻计算负担,IBM 在其新发布的论文《Distributed Deep Learning Strategies for Automatic Speech Recognition》中提出了一种分布式处理架构,该架构在流行的开源基准 Switchboard 上实现了以往 15 倍的训练速度,而没有损失准确率。论文作者表示,在包含多个显卡的系统上部署该架构,它能够将总的训练时间从几周缩短为几天。

该论文计划在下个月的 IEEE 国际声学、语音与信号处理会议(ICASSP)上发表。

论文作者 Wei Zhang、Xiaodong Cui 和 Brian Kingsbury 在即将发表的博客中解释称:训练类似苹果的 Siri、谷歌助手、亚马逊的 Alexa 这样的自动语音识别系统需要复杂的编码系统来将语音转化为深度学习系统能够理解的特征,以及相应的解码系统来将输出转化为人类可读的文本。而模型也往往更大,导致大规模训练变得更加困难。

该团队的并行解决方案需要增加批量或可以一次性处理的样本数量,但需要加以区分,这将会对准确率产生负面影响。相反,他们使用「原则性方法」将批量增加至 2560,同时应用了称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。

据研究人员解释,大多数深度学习模型要么采用同步方法(受慢系统影响较大),要么采用基于参数服务器(PS)的异步方法(往往生成不太准确的模型)进行优化。相比之下,IBM 在去年一篇论文中首次详细说明的 ADPSGD 是异步和分散的,保证模型准确率处于基线水平,并为某些类型的模型优化提供加速。

在测试中,论文作者称 ADPSGD 将 ASR 工作运行时间从单个 V100 GPU 上的一周缩短至 32-GPU 系统上的 11.5 小时。他们希望未来的工作算法和系统可以处理更大的批量以及优化更强大的硬件。

Zhang、Cui 和 Kingsbury 写道:「在半天内完成一项训练是比较理想的,因为这样能让研究人员快速迭代开发新的算法。同时还使得开发人员可以快速周转时间,让现有模型适应他们的应用程序,尤其适用于那些需要大量语音来实现鲁棒性和可用性所需的高准确率的定制用例。」

原文链接:https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档