正如您可能注意到的,我对python和声音处理非常陌生。我(希望)使用python、logfbank和mfcc函数从波形文件中提取FFT数据。( logfbank似乎给出了最有希望的数据,mfcc的输出对我来说有点奇怪)。
在我的程序中,我希望更改logfbank/mfcc数据,然后从它创建wave数据(并将它们写入文件)。我没有发现任何关于从FFT数据中创建波形数据的过程的信息。你们中有谁知道如何解决这个问题吗?我会非常感激:)
到目前为止,这是我的代码:
from scipy.io import wavfile
import numpy as np
from python_speech_
我要去接Type Error: Object dtype dtype('O') has no native HDF5 equivalent。下面是我的python代码;mel_train, mfcc_train, and y_train的dtype都是float32。数组形状为:mfcc_train: (6398,);mel_train: (6398,)和y_train: (6398, 16)。
with h5py.File(train_file,'w') as f:
f['mfcc_train'] = mfcc_train
f[
我是一个初学者,我正在将音频文件转换为mfcc,我已经做了一个文件,但不知道如何迭代它通过所有的数据集。我在Training文件夹中有多个文件夹,其中一个是001(0),从中转换一个wav文件。我想转换Training文件夹中存在的所有文件夹的wav文件 import os
import numpy as np
import matplotlib.pyplot as plt
from glob import glob
import scipy.io.wavfile as wav
from python_speech_features import mfcc, logfbank
# Read
我目前正在做一个使用隐马尔可夫模型进行说话人验证的项目。我选择MFCC进行特征提取。我也打算将VQ应用于它。我已经实现了HMM,并在艾斯纳的数据电子表格上进行了测试,得到了正确的结果。
使用语音信号,我似乎遗漏了一些东西,因为我没有得到正确的接受(我使用前向算法进行了概率估计-没有应用缩放).I想知道我可能做错了什么。我使用scikits的MFCC函数进行特征提取,使用Scipy的聚类进行矢量量化。下面是我写的内容:
from scikits.talkbox.features import mfcc
from scikits.audiolab import wavread
from scipy