前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[语音识别] kaldi -- aidatatang_200zh脚本解析:三音速详解

[语音识别] kaldi -- aidatatang_200zh脚本解析:三音速详解

作者头像
MachineLP
发布2021-07-20 10:19:29
3840
发布2021-07-20 10:19:29
举报
# train tri1 [first triphone pass]
steps/train_deltas.sh --cmd "$train_cmd" \
2500 20000 data/train data/lang exp/mono_ali exp/tri1 || exit 1;
# steps/train_deltas.sh <num-leaves> <tot-gauss> <data-dir> <lang- dir> <alignment-dir> <exp-dir>
  • num-leaves是叶子节点数目
  • tot-gauss是总高斯数目
  • data-dir是数据文件 夹
  • lang-dir是存放语言的文件夹
  • alignment-dir是存放之前单音素对⻬后结果的文件夹
  • exp-dir是存放三音素模型结果的文件夹。
# decode tri1

utils/mkgraph.sh data/lang_test exp/tri1 exp/tri1/graph || exit 1;

steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config -- nj 10 \
exp/tri1/graph data/dev exp/tri1/decode_dev
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config -- nj 10 \
exp/tri1/graph data/test exp/tri1/decode_test

mkgraph.sh主要生成了HCLG.fst和words.txt这两个重要的文件,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt。HCLG是解码时的重要组成部分。HCLG.fst是由4个fst经过一系列算法

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-07-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档