我正在读最好的例子:关于令牌化的http://www.openfst.org/twiki/bin/view/FST/FstExamples。
在这个例子中,他们创建了三个fst:Mars.fst、Martian.fst和man.fst,并手动运行一些fst命令将它们合并成一个大转换器。他们得到的单词“火星”,“火星”和“人”从wotw.syms,其中有7102个单词。
我的问题是,是否有一种聪明的方法可以为所有7102个单词创建一个word.fst,这样所有7102个单词都可以变成一个大型自动机,还是必须手动完成,就像对火星、火星和人类这三个单词所做的那样?
发布于 2021-12-05 12:07:00
他们给出了一个脚本:https://www.openfst.org/twiki/pub/FST/FstExamples/makelex.py.txt我们可以简单地:
cat wotw.syms | python2 makelex.py > lexicons_text.fst
fstcompile --isymbols=ascii.syms --osymbols=wotw.syms lexicon_text.fst lexicon.fst
fstrmepsilon lexicon.fst | fstdeterminize | fstminimize >lexicon_opt.fsthttps://stackoverflow.com/questions/66179819
复制相似问题