前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

作者头像
量子位
发布2019-09-17 15:06:54
5700
发布2019-09-17 15:06:54
举报
文章被收录于专栏:量子位量子位
郭一璞 假装发自 蒙特利尔 量子位 报道 | 公众号 QbitAI

你厌倦语音工具包Kaldi了么?有没有觉得它不好用?

加拿大也有一群人这么认为。

现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包:SpeechBrain

这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。

SpeechBrain会建立在PyTorch上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。

并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。

其他工具包不完美

准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。

蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:

Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;

PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;

PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;

ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;

因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。

另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。

业界热烈欢迎

有人觉得,Kaldi那么难用,总算有人要出新的取代它了:

甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:

还有人称赞,这就是语音界的ImageNet时刻:

总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。

传送门

最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

另外,如果你要去参加下周的interspeech,可以听到更多消息。

项目官网: https://speechbrain.github.io/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 其他工具包不完美
  • 业界热烈欢迎
  • 传送门
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档