我收集了一大堆音频文件,以及他们用外语写的文本。
我希望能够识别用户是否从文本中背诵了正确的单词。
我如何开始使用CMU Sphinx来实现这一点?我需要语言模型,声学模型吗?
我想要一些指导和从哪里开始。
发布于 2017-05-15 16:17:06
如何开始使用CMU Sphinx实现此目标?
你识别音频,并将其与转录进行比较。在不匹配的情况下,您可以警告用户
我需要语言模型,声学模型吗?
是的,两者都需要。您可以从您的集合中构建它们,但您仍然需要引导数据。要在这里获得更多建议,值得一提的是语言。
我想要一些指导,请告诉我从哪里开始。
https://stackoverflow.com/questions/43967550
复制相似问题