专栏首页小鹏的专栏[语音识别] kaldi -- aidatatang_200zh脚本解析:获取对齐文件(对指定的数据进行对齐,作为新模型的输入)

[语音识别] kaldi -- aidatatang_200zh脚本解析:获取对齐文件(对指定的数据进行对齐,作为新模型的输入)

输入:tree & final.mdl & text & L.fst & feats

输出:ali.JOB.gz (根据重新构建的图产生) & final.mdl (cp from 训练过程的最终结果)

steps/align_si.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/mono exp/mono_ali || exit 1;

流程:

1. 根据$use_graphs(默认是false)判断是否需要重新构建图
    1.1 compile-train-graphs //使用final.mdl重新构建图
2. gmm-align-compiled //对齐
3. gmm-boost-silence //模型平滑处理
4. steps/diagnostic/analyze_alignments.sh --cmd "$cmd" $lang $dir  

备注:

  1. compile-train-graphs & gmm-align-compiled
  • 输入:tree & final.mdl & text & L.fst & feats
  • 输出:ali.JOB.gz
tra="ark:utils/sym2int.pl --map-oov $oov -f 2- $lang/words.txt $sdata/JOB/text|";
$cmd JOB=1:$nj $dir/log/align.JOB.log \
    compile-train-graphs --read-disambig-syms=$lang/phones/disambig.i

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • PyTorch+Kaldi、专注E2E语音识别,腾讯AI Lab开源轻量级语音处理工具包PIKA

    Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用 C++ ...

    磐创AI
  • 语音识别开源工具PyTorch-Kaldi:兼顾Kaldi效率与PyTorch灵活性

    杰出的科学家和工程师们一直在努力地给机器赋予自然交流的能力,语音识别就是其中的一个重要环节。人类对语音识别技术的研究从上世纪 50 年代开始就未曾停止。在长期的...

    机器之心
  • 独家 | 一文读懂语音识别(附学习资源)

    一、前言 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:...

    数据派THU
  • [语音识别] 单音素、三音素、决策树

    以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。音素应该与人体的发音严格的...

    MachineLP
  • 一文详解 DNN 在声学应用中的模型训练

    本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训练的模型,以训练好的mono模型为例,...

    AI研习社
  • 开发 | Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了

    AI科技评论按:自动语音识别(Automatic speech recognition,ASR)领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了Te...

    AI科技评论
  • 业界 | DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集

    机器之心发布 百度 DuerOS 美国西部时间 11 月 9 日,百度 DuerOS 普罗米修斯计划在美国硅谷召开启动发布会。一周后,2017 百度世界大会上,...

    机器之心
  • 鸟叫就能黑掉AI系统,而且你根本察觉不到

    语音识别AI,从鸟鸣中听出了奇怪的命令:要访问邪恶网站evil.net,还要安装后门。

    量子位
  • 横评:五款免费开源的语音识别工具

    编者按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科...

    AI研习社
  • 语音界传奇Dan Povey突遭美霍普金斯大学解雇,计划转投中国

    语音界大佬、开源语音识别系统 kaldi 的开发者 Dan Povey 被约翰・霍普金斯大学 (JHU) 解雇了。

    新智元
  • 10小时训练数据打造多语种语音识别新高度

    本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种...

    腾讯高校合作
  • 纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

    语音处理技术的进步,是人工智能改变大众的生活的重要一环。深度学习技术的兴起,也让这一领域近年来得到了长足的发展。在过往,该领域的主要方法是为不同的任务开发不同的...

    机器之心
  • 资源 | 横向对比5大开源语音识别工具包,CMU Sphinx最佳

    选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了...

    机器之心
  • 最关键、最难啃的技术,被这群小米工程师搞定了

    「人才是我们的创新之源。小米今年新招聘入职的数量已超过 2250 人,研发团队规模达到了一万人。2021 年我们还将扩招 5000 名工程师,进一步扩充研发团队...

    机器之心
  • 内容 AI:建立统一的跨媒体多模态内容理解内核

    ? 作者:zixunsun@tencent.com ? Jeff Dean 谈 2020 年机器学习趋势:多任务和多模式学习将成为突破口 2019 年下半年,...

    腾讯技术工程官方号
  • 从不温不火到炙手可热:语音识别技术简史

    【导读】语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无...

    AI科技大本营
  • NLP入门之语音模型原理

    这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习...

    云时之间
  • 拼写、常识、语法、推理错误都能纠正,云从提出基于BART的语义纠错方法

    近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在 ASR 转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频...

    机器之心
  • Interspeech 2019 | 基于多模态对齐的语音情感识别

    语音领域顶级学术会议 Interspeech于2019年9月15-19日在奥地利格拉茨举行。

    AI科技评论

扫码关注云+社区

领取腾讯云代金券