前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[语音识别] kaldi -- aidatatang_200zh脚本解析:获取对齐文件(对指定的数据进行对齐,作为新模型的输入)

[语音识别] kaldi -- aidatatang_200zh脚本解析:获取对齐文件(对指定的数据进行对齐,作为新模型的输入)

作者头像
MachineLP
发布2021-07-20 11:21:50
7580
发布2021-07-20 11:21:50
举报
文章被收录于专栏:小鹏的专栏

输入:tree & final.mdl & text & L.fst & feats

输出:ali.JOB.gz (根据重新构建的图产生) & final.mdl (cp from 训练过程的最终结果)

代码语言:javascript
复制
steps/align_si.sh --cmd "$train_cmd" --nj 10 \
  data/train data/lang exp/mono exp/mono_ali || exit 1;

流程:

代码语言:javascript
复制
1. 根据$use_graphs(默认是false)判断是否需要重新构建图
    1.1 compile-train-graphs //使用final.mdl重新构建图
2. gmm-align-compiled //对齐
3. gmm-boost-silence //模型平滑处理
4. steps/diagnostic/analyze_alignments.sh --cmd "$cmd" $lang $dir  

备注:

  1. compile-train-graphs & gmm-align-compiled
  • 输入:tree & final.mdl & text & L.fst & feats
  • 输出:ali.JOB.gz
代码语言:javascript
复制
tra="ark:utils/sym2int.pl --map-oov $oov -f 2- $lang/words.txt $sdata/JOB/text|";
$cmd JOB=1:$nj $dir/log/align.JOB.log \
    compile-train-graphs --read-disambig-syms=$lang/phones/disambig.i
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/07/17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档