快讯 | Facebook开源语音识别工具包wav2letter

今日凌晨,Facebook AI研究中心宣布开源语音识别工具包wav2letter!这是一款简单高效的端到端自动语音识别(ASR)系统,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 和 Letter-Based Speech Recognition with Gated ConvNets 中提出的架构。

16年11月,Facebook的三位研究者Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve在arXiv.org上发布文章,正式提出了wav2letter。

文章中研究者介绍,这是一个简单的端到端语音识别模型,结合了基于卷积网络的声学模型和图解码。其被训练输出文字,转录语音,而无需强制对齐音素。wav2letter还引入了一个自动的序列标注训练分割准则,而不需要与CTC一致的对齐方式,这种方式更简单。

项目代码已经发布至GitHub,如果你想直接开始进行语音转录,你可以使用同时被开源的预训练好的一些模型,前提是完成必要的安装。当然,目前能识别的只有英文语音哦!

开源代码GitHub链接:

https://github.com/facebookresearch/wav2letter

论文arXiv链接:

https://arxiv.org/abs/1609.03193

Facebook也发布了公开信介绍这一开源项目,包括该项目主要负责人Ronan Collobert、Facebook AI研究中心负责人Yann Lecan等在内的研究者都在推特上介绍了这一发布。

文摘菌摘录了部分公开信内容如下:

我们刚刚开源我们的语音识别工具:wav2letter!

代码地址:

https://github.com/facebookresearch/wav2letter

我们将其与在LibriSpeech语料库中预先训练的一些模型一起发布,支持我们的最新论文Letter-Based Speech Recognition with Gated ConvNets。

wav2letter是在Torch上编写的一个简单的工具包,简化了对端到端语音识别系统的训练,并提供了一个允许快速解码的独立解码器。

它使我们能够复现我们最近的3篇论文(详见参考资料)。

敬请期待我们的更多研究。

Gabriel Synnaeve,Vitaliy Liptchinsky,Neil Zeghidour和Christian Puhrsch。

更多参考资料:

语料库 LibriSpeech。

http://www.openslr.org/12

论文 Letter-Based Speech Recognition with Gated ConvNets。

https://arxiv.org/abs/1712.09444

论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System。

https://arxiv.org/abs/1609.03193

论文 Learning Filterbanks from Raw Speech for Phone Recognition。

https://arxiv.org/abs/1711.01161

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-01-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

EMNLP 2018 上 FB 、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接收论文

AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 年中,词...

14220
来自专栏北京马哥教育

实战 | 用 Python 选股票,据说可以多挣个20%

本文将使用Python来可视化股票数据,比如绘制K线图,并且探究各项指标的含义和关系,最后使用移动平均线方法初探投资策略。 数据导入 这里将股票数据存储在sto...

70860
来自专栏云时之间

NLP系列学习:命名实体识别(一)

在自然语言处理中,分词,词性标注,命名实体识别和句法情感分析是非常关键的分支,因为最近需要对此有一些应用,便去了解了一下特定领域目前使用的方法以及一些困难,特此...

17530
来自专栏数据派THU

独家 | 教你实现数据集多维可视化(附代码)

翻译:张媛 校对:卢苗苗 用代码将你的数据集进行多维可视化! 介绍 描述性分析是与数据科学或特定研究相关的任何分析生命周期中的核心组成部分之一。数据聚合,汇总...

1.2K90
来自专栏智能算法

机器人算法专题介绍

算法 算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规...

47360
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(6)——借水浒传故事,释决策树思路

决策树 (又称判定树,Decision Tree)是硕、博士生数据挖掘课程要点和难点,教学实践表明,这一章需要数学基础知识多,难得有趣。明知是难点,偏向难...

36850
来自专栏星流全栈

【两分钟论文#19】递归神经网络创作音乐和模仿莎士比亚写小说

17740
来自专栏新智元

【Github2.2K星】PyTorch资源列表:450个NLP/CV/SP、论文实现、教程、示例

https://github.com/bharathgs/Awesome-pytorch-list

21710
来自专栏数据魔术师

干货|迭代局部搜索算法(Iterated local search)探幽(附C++代码及注释)

78070
来自专栏AI研习社

博客 | EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

雷锋网 AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 ...

12930

扫码关注云+社区

领取腾讯云代金券