我想为机器学习模型准备一个音频数据集.
每个.wav文件应该表示为一个MFCC映像。
虽然所有的图像都有相同的MFCC值(= 20),但是.wav文件的长度在3-5秒之间。
我是否应该操作所有.wav文件,使其具有相同的长度?在绘图之前,我是否应该规范MFCC值(介于0到1之间)?
在将这些数据传递给机器学习模型之前,有什么重要的步骤吗?
更多的阅读链接也将不胜感激。
发布于 2020-03-07 22:18:19
大多数分类器都需要固定大小的输入,是的。在计算完MFCC之后,您可以通过切割或填充MFCC来做到这一点。无需操作WAV/波形本身。
另一种方法是将音频文件分割成多个分析窗口,比如每个窗口1秒。然后,一个3秒的文件可以用3个预测来完成(或者如果使用重叠的话更多),而一个5秒的文件则需要5个预测(或更多)。然后,要获得剪辑范围的预测,可以将预测合并到剪辑中的所有窗口上。以这种方式进行训练的简单方法需要假设为剪辑指定的标签对于每个单独的分析窗口都有效。
https://stackoverflow.com/questions/60474074
复制相似问题