前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

作者头像
量子位
发布2018-03-23 11:07:57
1.6K0
发布2018-03-23 11:07:57
举报
文章被收录于专栏:量子位量子位
林鳞 编译整理 量子位 出品 | 公众号 QbitAI

关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行语音交互时起到重要作用。

关键词识别pipeline

近日,ARM和斯坦福大学合作开源了预训练TensorFlow模型和它们的语音关键词识别代码,并将结果发表在论文Hello Edge: Keyword Spotting on Microcontrollers中。

这个开源库包含了TensorFlow模型和在论文中用到的训练脚本。

在论文中,研究人员还展示了不同的神经网络架构,包含DNN、CNN、Basic LSTM、LSTM、GRU、CRNN和DS-CNN,并将这些架构加入到预训练模型中。

预训练模型地址:

https://github.com/ARM-software/ML-KWS-for-MCU/tree/master/Pretrained_models

论文摘要

在研究中,研究人员评估了神经网络架构,并且在资源受限的微控制器上运行KWS。他们训练了多种神经网络架构变体,并比较变体之间的准确性和存储/计算需求。

神经网络模型的准确性

研究人员发现,在不损失精确度的情况下,在存储了计算资源受限的微控制器上优化这些神经网络架构可行。

之后,研究人员还进一步探索了DS-CNN架构,并且和其他神经网络架构进行了对比。

结果证明,DS-CNN架构的准确性最高,为95.4%,比超参数相似的DNN模型精确度约高10%。

超参数搜索中的最佳神经网络

相关资料

论文下载地址:

https://arxiv.org/pdf/1711.07128.pdf

项目代码地址:

https://github.com/ARM-software/ML-KWS-for-MCU

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文摘要
  • 相关资料
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档