我理解创建一个自动语音识别引擎的基本步骤。然而,我需要一个清晰的概念,分割是如何做的,什么是帧和样本。我会写下我所知道的,并期待答案--呃,在我错的地方纠正我,并进一步指导我。
据我所知,语音识别的基本步骤是:
(我假设输入数据是wav/ogg (或某种音频)文件)
虽然这些对我来说很清楚,但我很困惑第三步是否正确。如果它是正确的,在下面的步骤3,我是否适用于每一帧?另外,在第6步之后,我认为每个帧都有自己的MFCC集,对吗?
提前谢谢你!
发布于 2016-01-08 11:58:49
将剪辑分割成更小的时间框架,每个片段大约30毫秒长。此外,每段将有大约256帧和两段将有一个100帧分开?(即30*100/256毫秒?)
不是框架而是样本。每帧30 is的8khz采样率为30/1000 * 8000 =240个样本。帧重叠,帧间移位为10 is或80采样。在这张图片上,它的外观如下:
这里Q为80,K为240样品。
如果它是正确的,在下面的步骤3,我是否适用于每一帧?
是
另外,在第6步之后,我认为每个帧都有自己的MFCC集,对吗?
是。
https://stackoverflow.com/questions/34672182
复制相似问题