首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >准备MFCC音频功能-所有WAV文件都应该是相同的长度吗?

准备MFCC音频功能-所有WAV文件都应该是相同的长度吗?
EN

Stack Overflow用户
提问于 2020-03-01 10:19:46
回答 1查看 1K关注 0票数 2

我想为机器学习模型准备一个音频数据集.

每个.wav文件应该表示为一个MFCC映像。

虽然所有的图像都有相同的MFCC值(= 20),但是.wav文件的长度在3-5秒之间。

我是否应该操作所有.wav文件,使其具有相同的长度?在绘图之前,我是否应该规范MFCC值(介于0到1之间)?

在将这些数据传递给机器学习模型之前,有什么重要的步骤吗?

更多的阅读链接也将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-07 22:18:19

大多数分类器都需要固定大小的输入,是的。在计算完MFCC之后,您可以通过切割或填充MFCC来做到这一点。无需操作WAV/波形本身。

另一种方法是将音频文件分割成多个分析窗口,比如每个窗口1秒。然后,一个3秒的文件可以用3个预测来完成(或者如果使用重叠的话更多),而一个5秒的文件则需要5个预测(或更多)。然后,要获得剪辑范围的预测,可以将预测合并到剪辑中的所有窗口上。以这种方式进行训练的简单方法需要假设为剪辑指定的标签对于每个单独的分析窗口都有效。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60474074

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档