我计算了给定声音文件的fft,并得到了一个形状为( 100 , 257 )的数组,其中有100行和257个频率段。我想使用它作为神经网络的输入向量,但在使用librosa lib进行标准化之前
https://librosa.github.io/librosa/generated/librosa.util.normalize.html#librosa.util.normalize
那么我应该在axis=0或axis=1上进行标准化吗?axis=0对所有行聚合的列进行标准化,axis=1对每一行进行标准化,还是应该对独立于行和列的每个值进行标准化?
发布于 2017-07-21 13:50:17
如何规范化fft取决于您的应用程序和最终的性能。没有一个通用的标准化方案。
在我的一个应用程序中,我没有对原始fft进行归一化并将其输入到神经网络。一种常见的归一化方法是取对数。此操作可以减小动态范围。
https://stackoverflow.com/questions/45144320
复制