我正在使用Librosa的函数(librosa.feature.mfcc)从音频文件中提取MFCC,并且我正确地获得了一个具有我所期望的形状的numpy数组:13个MFCC值用于音频文件的整个长度,即1292个窗口(30秒内)。缺少的是每个窗口的时间信息:例如,我想知道MFCC在时间上是什么样子,5000 is
使用Librosa库,我将MFCC功能的1319秒的音频文件生成了一个矩阵20 X 56829。这里的20表示MFCC功能的编号(我可以手动调整)。但我不知道它是如何将音频长度分割成56829的。处理音频所需的帧大小是多少?import numpy as npimport librosa
def getPathToGroundtruth(episod