首页
学习
活动
专区
工具
TVP
发布

新一代Kaldi技术细节揭秘:K2是核心部分

2020年11月15日,由北京希尔贝壳科技有限公司、中国计算机学会语音对话与听觉专业组、AISHELL基金会主办,小米科技、昆山杜克大学、西北工业大学音频语音与语言处理研究组、中国科学技术大学共同协办的第五届Kaldi技术交流会在北京举办。

受疫情影响,本次技术交流会采用全天线上直播 &下午(北京·小米科技园)线下技术交流会的形式。值得注意的是,本次线下交流活动,Kaldi 之父 Daniel Povey 博士首次亲临现场,与来自北京各大互联网公司、知名高校的开发者们深入交流下一代 Kaldi 社区未来的发展。

加入小米一年,Daniel Povey 设计并开发出了新一代 Kaldi。新一代 Kaldi 分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

其中,Lhotse(训练数据准备部分)将替代以前 Kaldi 中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse 除了 Kaldi 本身,也适用于其他应用。而且 Lhotse 纯 Python 代码,方便易用。

Icefall(示例脚本集合部分)将代替 Kaldi 中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

新一代 Kaldi 的核心部分叫“k2”。k2 可以让开发者很容易在 PyTorch/TensorFlow 中实现各种语音识别相关算法,比如 CTC、LF—MMI、RNN—T、2nd—pass 语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

同时,通过 k2 可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2 速度更快,通用性强(可以用来建模多种语音识别算法)。

现场,据 Daniel Povey 博士透露,k2 核心代码已完成。约 41000 行代码(主要是 C++),本周刚发布 0.1 版本。

Daniel Povey 博士目前担任小米集团语音首席科学家,由他开发和维护 Kaldi 集成了多种语音识别模型,公认是业界语音识别框架的基石。他在本次线下活动中强调:“今天有太多人依托 Kaldi 在做自己的事业,有很多人为 Kaldi 社区一直在做贡献,Kaldi 会始终坚持开源。”

小米集团副总裁、技术委员会主席崔宝秋出席活动并指出,拥抱开源是小米工程文化的重要组成部分,我们要共同努力实现“四赢”:让 Kaldi 项目和 Daniel 赢,小米语音赢,全球的 Kaldi 社区赢,所有跟 Kaldi 相关的创业公司赢。

最后,Daniel Povey 博士感谢了所有人对社区的贡献,他欢迎更多中国和全球的工程师来社区贡献代码,共同为 Kaldi 和全球语音行业的发展做贡献。

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/13IWjKNlo1r7a7IVhwFg
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券