正如您可能注意到的,我对python和声音处理非常陌生。我(希望)使用python、logfbank和mfcc函数从波形文件中提取FFT数据。( logfbank似乎给出了最有希望的数据,mfcc的输出对我来说有点奇怪)。
在我的程序中,我希望更改logfbank/mfcc数据,然后从它创建wave数据(并将它们写入文件)。我没有发现任何关于从FFT数据中创建波形数据的过程的信息。你们中有谁知道如何解决这个问题吗?我会非常感激:)
到目前为止,这是我的代码:
from scipy.io import wavfile
import numpy as np
from python_speech_
我在做语音分析。我把声音录了5秒。应用Hamming窗,直流偏移和归一化,并使用fft的频谱。我想知道声音有多大变化。那么,有没有办法将fft转换回时域呢?
clc,clear;
% Record your voice for 5 seconds.
%recObj = audiorecorder;
recObj = audiorecorder(96000, 16, 1);
disp('Start speaking.')
recordblocking(recObj,5);
disp('End of Recording.');
% Play back the re