专栏首页小鹏的专栏[语音识别] kaldi -- aidatatang_200zh脚本解析:构建解码图

[语音识别] kaldi -- aidatatang_200zh脚本解析:构建解码图

输入:final.mdl & tree & L_disambig.fst & G.fst

输出:HCLG.fst (在exp/xxxx/graph下)

## 构建解码图
### mkgraph.sh主要生成了HCLG.fst,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt(从lang文件夹  cp过来)。
utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1;

流程:

1. 将词典L.fst和语言模型G.fst组合(fsttablecompose),然后进行确定化(fstdeterminizestar)和最小化(fstminimizeencoded),得到LG.fst,并确保结果stochastic,即从每个状态输出的转移概率之和为1
    1. fsttablecompose # compose(组合) [L_disambig.fst, G.fst]
    2. fstdeterminizestar # det (确定化)
    3. fstminimizeencoded # min (最小化)
    4. fstpushspecial #
    5. fstisstochastic # 诊断步骤,他打印出两个数字,最小权重和最大权重,以告诉用户FST不随机的程度
    
2. 将上下文C.fst和LG.fst组合得到CLG.fst,并确保结果stochastic
    1. fstcomposecontext 
    2. fstarcsort
    3. fstisstochastic
3. 基于HMM拓扑结构、转移概率和决策树

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [语音识别] kaldi -- aidatatang_200zh脚本解析:单音素解码

    MachineLP
  • [语音识别] 01 语音识别概述

    英文数据 • TIMIT:音素识别,LDC版权 • WSJ:新闻播报,LDC版权 • Switchboard:电话对话,LDC版权 • Aurora4,...

    MachineLP
  • PyTorch+Kaldi、专注E2E语音识别,腾讯AI Lab开源轻量级语音处理工具包PIKA

    Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用 C++ ...

    磐创AI
  • 语音识别开源工具PyTorch-Kaldi:兼顾Kaldi效率与PyTorch灵活性

    杰出的科学家和工程师们一直在努力地给机器赋予自然交流的能力,语音识别就是其中的一个重要环节。人类对语音识别技术的研究从上世纪 50 年代开始就未曾停止。在长期的...

    机器之心
  • 开发 | Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了

    AI科技评论按:自动语音识别(Automatic speech recognition,ASR)领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了Te...

    AI科技评论
  • 最关键、最难啃的技术,被这群小米工程师搞定了

    「人才是我们的创新之源。小米今年新招聘入职的数量已超过 2250 人,研发团队规模达到了一万人。2021 年我们还将扩招 5000 名工程师,进一步扩充研发团队...

    机器之心
  • 纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

    语音处理技术的进步,是人工智能改变大众的生活的重要一环。深度学习技术的兴起,也让这一领域近年来得到了长足的发展。在过往,该领域的主要方法是为不同的任务开发不同的...

    机器之心
  • 独家 | 一文读懂语音识别(附学习资源)

    一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:...

    数据派THU
  • 横评:五款免费开源的语音识别工具

    编者按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科...

    AI研习社
  • 资源 | 横向对比5大开源语音识别工具包,CMU Sphinx最佳

    选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了...

    机器之心
  • 业界 | DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集

    机器之心发布 百度 DuerOS 美国西部时间 11 月 9 日,百度 DuerOS 普罗米修斯计划在美国硅谷召开启动发布会。一周后,2017 百度世界大会上,...

    机器之心
  • Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

    现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机...

    量子位
  • Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

    现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机...

    代码医生工作室
  • 语音界传奇Dan Povey突遭美霍普金斯大学解雇,计划转投中国

    语音界大佬、开源语音识别系统 kaldi 的开发者 Dan Povey 被约翰・霍普金斯大学 (JHU) 解雇了。

    新智元
  • 语音识别大牛莫名被JHU开除后,怒拒Facebook,转向中国公司与高校

    作为语音识别领域的大牛,Daniel Povey 教授此前一直在负责霍普金斯语言语音处理中心的工作。他曾主导开发了语音识别工具库 Kaldi,该工具库支持多种语...

    机器之心
  • 图灵奖得主论体系结构创新,自动构建知识图谱,打造新一代Kaldi,尽在2020 WAIC·开发者日

    WAIC 世界人工智能大会云端峰会已于近日在上海落幕。在机器之心承办的 2020 WAIC· 开发者日上,图灵奖得主 David Patterson 和 Jos...

    机器之心
  • 学界 | 新研究将GRU简化成单门架构,或更适用于语音识别

    选自arXiv 机器之心编译 参与:Panda Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文,介绍了他们通过修改门控循环单元(...

    机器之心
  • Python作为机器学习语言的老大,跟在它后面的语言都是谁?

    Python 由于本身的易用优势和强大的工具库储备,成为了在人工智能及其它相关科学领域中最常用的语言之一。尤其是在机器学习,已然是各大项目最偏爱的语言。

    IT派
  • 语音识别技术发展迅速,这本书是你需要的全方位解读语音识别的最新著作!

    随着物联网技术和智能设备技术的快速发展,人与机器的交互,不再仅依赖于鼠标和键盘,更有可能的是直接采用语音。

    博文视点Broadview

扫码关注云+社区

领取腾讯云代金券