专栏首页ATYUN订阅号滑铁卢大学与DarwinAI开发离线语音模型,准确率可达97%

滑铁卢大学与DarwinAI开发离线语音模型,准确率可达97%

编译:chux

出品:ATYUN订阅号

通常,语音识别的深度学习方法依靠强大的远程服务器进行大量处理。但是,滑铁卢大学和创业公司DarwinAI的研究人员声称已经开创了一种设计语音识别网络的策略,该策略不仅能够达到最先进的精度,而且能够生成足够强大的模型,以便在低端智能手机上运行。

他们发表的论文“EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge”中描述了他们的方法。它建立在亚马逊的Alexa机器学习团队的基础之上,该团队在今年早些时候开发了可在本地执行的导航,温度控制和音乐播放算法;高通公司在5月声称已经创建了95%准确的设备上语音识别模型;爱尔兰都柏林创业公司Voysis于9月宣布推出用于移动设备的离线WaveNet语音模型。

“在这项研究中,我们探索了一种人机协同设计策略,用于通过人为驱动的原理网络设计原型和机器驱动设计探索的结合,构建用于语音识别的低占用空间深度神经网络架构,”研究人员写道,“通过设计一系列高效的深度神经网络(被称为EdgeSpeechNets)来进行有限的词汇识别,证明了这种设计策略的有效性。”

该团队首先构建了一个原型,该原型执行有限词汇量的语音识别或关键词识别,能够从语音流中快速识别特定关键词。然后,他们决定采用一种设计方法,将音频信号转换为称为梅尔频率倒谱系数的数学表示,利用深度残差学习来获得比传统技术更强大的表现能力。

接下来,他们开始进行生成综合,这是一种机器驱动的设计策略,可以构建深度神经网络,并强调性能。在这种情况下,研究人员使用了一种配置,确保语音模型的验证准确度至少达到95%。

为了评估生产的EdgeSpeechNets的性能,该团队使用了Google Speech Commands数据集,这是一个包含65000个一秒钟30个短字样本和背景噪声样本的数据集。

其中一个型号EdgeSpeechNet-A与最先进的语音识别模型(res15)相比,精度提高了1%,同时要求的处理能力显著降低。此外,它的测试精度达到了97%,优于之前公布的结果。

另一款型号EdgeSpeechNet-D ,搭载摩托罗拉Moto E手机的1.4GHz Cortex-A53处理器,预测延迟为34毫秒,内存占用小于1MB,延迟减少10倍,内存占用比上述减少16.5%最先进的神经网络。

另一个模型EdgeSpeechNet-C,其中最小的一个,比最先进的设备具有更高的精度,减少了7.8个参数(用于控制训练过程的某些属性的函数参数)和10.7个乘法加法运算。

研究人员写道:“EdgeSpeechNets在更小的尺寸上具有更高的精度,而且计算成本低于最先进的深度神经网络。这些结果表明,EdgeSpeechNets能够实现最先进的性能,同时仍然明显更小,并且需要的计算量更少,因此非常适合于设备边缘语音接口应用。”

在未来的工作中,他们计划将人机协同深度神经网络设计策略应用于视觉感知和自然语言处理等领域。

论文:arxiv.org/pdf/1810.08559.pdf

本文分享自微信公众号 - ATYUN订阅号(atyun_com)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 词错率2.97%:云从科技刷新语音识别世界纪录

    云从表示,这已是云从在近半年以来第二次宣布刷新世界纪录。今年 4 月,云从科技跨镜追踪技术(ReID)技术在 Market-1501,DukeMTMC-reID...

    机器之心
  • 寒冬来临?AI公司面临大考

    人工智能并不是一个新的概念,它实际上诞生于 20 世纪 50 年代。在这 60 年间,人工智能的发展并不是一帆风顺,而是起起落落,先后经历了 Pre-AI 时代...

    AI科技大本营
  • 中国AI军团称霸全球口语翻译大赛!搜狗夺冠,讯飞阿里二三

    在刚刚落幕的IWSLT(International Workshop on Spoken Language Translation)国际顶级口语机器翻译评测大赛...

    量子位
  • 智能化软件开发:程序员与 AI 机器人一起结对编程

    AI 科技评论按:伴随着 AI 技术的发展和应用,人们对「人工智能」的认知也不断被刷新和拓展,在大众眼中,AI 正变得越来越强大,不仅可以下棋博弈战胜人类的顶尖...

    AI科技评论
  • 科大讯飞又谈“人机耦合”:AI替代人不是最牛的,让人用AI才是最牛的

    今天是1024程序员日,也是科大讯飞的1024开发者节,在合肥奥体中心,科大讯飞把它们的开发者节办成了演唱会的形式。

    镁客网
  • SoundHound与本田合作,加速开发AI语音助手

    会话智能技术的领先创新者SoundHound宣布与本田建立战略合作伙伴关系,以加速AI语音助手的发展。

    AiTechYun
  • TensorFlow系列专题(三):深度学习简介

    作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史。接下来我们简单...

    磐创AI
  • 【SIGAI高校巡讲回顾】北京邮电大学站

    2018年11月01日晚7:00-8:30,SIGAI高校巡回讲座在北京邮电大学举行,举办地点是教3楼235,本着搭建高校交流桥梁,拓宽学生科技视野的目的,SI...

    SIGAI学习与实践平台
  • Python语音识别终极指北,没错,就是指北!

    整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。阅读本指南,你就将会了解...

    马哥linux运维

扫码关注云+社区

领取腾讯云代金券