向各位问候,
我拼命地试图找到htk 3.4中需要修改的文件,这样我就可以直接读取发声的音素/单音素的后验概率序列,并直接将它们转发给解码器,给出声学和语言模型。
更详细地说,我正在按照HTK教程到并包括步骤9,我只想在单声道上工作。我的(自己的,特定的)特征向量是具有每个音素的3个状态的概率的向量序列,类似于
(p(aa_begin),p(aa_mid),p(aa_end),...,p(z_begin),p(z_mid),p(z_end))
对于发声中的每个帧,其中条目如上所述已经是后验问题。
知道我需要修改哪些文件才能从我的(特定)文件(自己的二进制格式)中读取这些文件,以及如何将它们直接转发到解码器?最好是让我可以使用HVite & HEResult来获得结果?
谢谢你的帮助,G。
发布于 2015-09-24 19:14:27
我认为HVite上的-f选项将以您希望的方式呈现结果。下面是我发送的命令:
。/HVite -T 1 -f -b sil -C配置-a -H型号/hmm7/ -H -H型号/hmm7/hmmdefs -I word1.mlf -m -t 250.0 -y lab -i word.mlf -S train.scp -L label/ dict.list phone1.list
这里是文件word1.mlf的开头(s2、s3、s4是每个音素的开头、中心和结尾)
"mfc/dr1_fcjf0_sa1.lab"
0 100000 s2 -48.580540 sil -1204.165527 sil
100000 400000 s3 -158.456665
400000 1900000 s4 -997.128357
1900000 2000000 s2 -75.405327 SH -530.110291 SHE
2000000 2500000 s3 -306.394897
2500000 2700000 s4 -148.310074
2700000 3000000 s2 -252.779510 IY -796.414673
3000000 3300000 s3 -214.586655
3300000 3700000 s4 -329.048492https://stackoverflow.com/questions/15097536
复制相似问题