前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品

最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品

作者头像
量子位
发布2018-12-28 11:51:28
1.6K0
发布2018-12-28 11:51:28
举报
文章被收录于专栏:量子位量子位
夏乙 发自 麦蒿寺 量子位 出品 | 公众号 QbitAI

第一个全卷积语音识别工具包wav2letter++开源了。

出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。

抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。

Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。

所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。

一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。

Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。

他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。

其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。

想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。

最后,附上传送门~

GitHub地址:

https://github.com/facebookresearch/wav2letter

论文:

wav2letter++: The Fastest Open-source Speech Recognition System Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系网易新闻·网易号“各有态度”签约作者

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 夏乙 发自 麦蒿寺 量子位 出品 | 公众号 QbitAI
    • 作者系网易新闻·网易号“各有态度”签约作者
    相关产品与服务
    语音识别
    腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档