专栏首页相约机器人Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

郭一璞 假装发自 蒙特利尔 量子位 报道

你厌倦语音工具包Kaldi了么?有没有觉得它不好用?

加拿大也有一群人这么认为。

现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包:SpeechBrain

这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。

SpeechBrain会建立在PyTorch上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。

并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。

其他工具包不完美

准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。

蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:

Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;

PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;

PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;

ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;

因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。

另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。

业界热烈欢迎

有人觉得,Kaldi那么难用,总算有人要出新的取代它了:

甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:

还有人称赞,这就是语音界的ImageNet时刻:

总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。

传送门

最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

另外,如果你要去参加下周的interspeech,可以听到更多消息。

项目官网: https://speechbrain.github.io/

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 依图科技声纹识别权威竞赛夺冠,智能语音再下一城

    在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Chall...

    AI科技评论
  • 「LSTM之父」 Jürgen Schmidhuber访谈:畅想人类和 AI 共处的世界 | WAIC 2019

    2019 年 8 月 29 日,世界人工智能大会 WAIC 2019 在上海世博中心举行。瑞士 USI 和 SUPSI 教授,NNAISENSE 联合创始人兼首...

    AI科技评论
  • 世界人工智能大会AI同传成标配,表现日渐成熟

    8月29日开幕的2019世界人工智能大会上,国内AI同传领域的领军代表腾讯同传为大会提供同传服务,同时现场服务的还有讯飞听见。

    用户2908108
  • 专访俞栋:多模态是迈向通用人工智能的重要方向

    随着语音识别、自然语言处理、计算机视觉等人工智能技术日益成熟,并逐渐落地到实际场景中,如何实现大规模应用落地或者说如何通往通用人工智能,越来越成为这些领域的研究...

    AI科技评论
  • 是什么技术让人工“智能”?

    在计算机科学领域中,人工智能是一种机器表现的行为,这种行为能以与人类智能相似的方式对环境做出反应并尽可能提高自己达成目的的概率。

    用户1737318
  • 饮食行业的Voice-First变革

    原文链接如下 - https://www.qsrmagazine.com/outside-insights/voice-first-revolution-tak...

    用户6026865
  • 是什么技术让人工变得“智能”?

    在计算机科学领域中,人工智能是一种机器表现的行为,这种行为能以与人类智能相似的方式对环境做出反应并尽可能提高自己达成目的的概率。

    CSDN技术头条
  • Python实时语音识别

    最近自己想接触下语音识别,经过一番了解和摸索,实现了对语音识别API的简单调用,正好写文章记录下。目前搜到的帖子里,有现成的调用百度语音API来对音频文件进行识...

    叫我龙总
  • 第1章 导论

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    村雨

扫码关注云+社区

领取腾讯云代金券