MFCC系数的数量如何取决于文件的长度

文章/答案/技术大牛

发布

1回答

voice-recognition、mfcc

我有一个长度为1.85秒的语音数据，然后我使用MFCC (使用中的libraby )提取其特征。它返回184 x 13个特征。我使用10毫秒的帧步长，25毫秒的帧大小，以及来自DCT的13个系数。我还是不能理解，因为最后一帧的长度不是25毫秒。有没有什么公式可以解释它如何返回184？提前谢谢你。

浏览 50提问于2018-07-12得票数 0

1回答

如何在Weka中使用MFCC进行音频分类？

audio、machine-learning、weka、feature-extraction、mfcc

我正在尝试开发一种方法来分类音频使用MFCC在Weka。我所拥有的MFCC是以1024的缓冲大小产生的，因此对于每个音频记录都有一系列MFCC系数。我想把这些系数转换成Weka的ARFF数据格式，但我不知道如何处理这个问题。我知道对于ARFF，需要通过属性列出数据。MFCC的每个系数是单独<e

浏览 8提问于2017-07-20得票数 2

回答已采纳

1回答

使用MFCC系数进行简单的语音活动检测

signal-processing、mfcc

由于MFCC系数存储了频带的振幅信息(这取决于所使用的滤波器组)，那么如何将这些系数用于语音活动检测？使用这些系数来执行进一步的能量计算并做出决策是否足够？

浏览 2提问于2016-01-02得票数 0

4回答

用于使用librosa进行音频分类的MFCC特征描述符

python、audio、machine-learning

我正在尝试为音频文件获取单向量特征表示，以用于机器学习任务(具体地说，使用神经网络进行分类)。我在计算机视觉和自然语言处理方面有经验，但我需要一些帮助来加快音频文件的速度。音频文件有各种各样的特征描述符，但MFCC似乎是用于音频分类任务最多的。我的问题是:如何获取音频文件的MFCC表示，它通常是一个矩阵(假设是系数矩阵)，并将其转换为单个特征向量？我有一堆音频<e

浏览 4提问于2014-09-23得票数 13

2回答

K-均值算法在ASR MFCC系数中的应用

speech-recognition、k-means、speech、mfcc

我已经将我的音频信号分成20毫秒的帧和10毫秒的重叠。因此，我有500帧。我已经计算了每一帧的MFCC系数。我想使用K均值算法对每一帧进行矢量量化。那么我该如何继续呢？是否采用相邻帧并将K均值应用于相邻帧？

浏览 1提问于2017-03-12得票数 0

1回答

Mel mfcc的组成部分是什么？

librosa、mfcc

在查看这一行代码的输出时：print("MFCC Shape = ", mfccs.shape) 我得到了MFCC Shape = (40,1876)的回复。任何见解都将受到极大的赞赏！

浏览 0提问于2020-12-08得票数 1

回答已采纳

1回答

如何为CNN输入python制作三维数组

python、arrays、multidimensional-array、conv-neural-network、mfcc

我正在尝试学习cnn网络来识别语音中的情感。为此，我使用了mel倒谱系数( mfcc )，它将每个音频文件表示为二维数组(帧数*mfcc系数数)。我想有一个三维数组作为我的cnn卷积层的输入，其中第三维是音频文件的数量。怎样才能得到这样的数组呢？range(len(audio_list)): (rate,sig) = wav.read(source_folder +

浏览 33提问于2019-05-25得票数 1

1回答

Pybrain中的单词分类:输入向量中的不同序列数

neural-network、pybrain

我正在尝试使用PyBrain实现一个简单的单数分类器。我有许多有记录的数字0到9的训练数据，并编写了一个脚本来提取每个例子的MFCC。为了保持简单(目前)，我只计算了13个系数，并且每10毫秒采样一次音频文件。由于每个记录的培训示例都具有不同的持续时间，所有“零”集的样本数，例如，每个“零”的样本数，取决于音频的长度。因此，对于一些“零”

浏览 1提问于2012-10-04得票数 0

0回答

mfcc特征大小如何影响递归神经网络

python、machine-learning、recurrent-neural-network、mfcc、librosa

所以我在学习机器学习，想知道mfcc特征大小对RNN (递归神经网络)有什么影响？使用librosa，我提取了mfcc，然后是增量系数，然后我得到了维数为13的数组，sound_lengthmfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

浏览 3提问于2017-01-10得票数 4

2回答

MFCC特征向量与DTW的比较

audio、speech-recognition、dynamic-programming、mfcc、dtw

我正在寻找一些关于动态时间弯曲(DTW)的建议。例如，一个.WAV文件可以由包含10组12个特征向量的数组来表示，而另一个.WAV文件可以由一个包含20组12个特征向量的数组来表示。我打算使用D

浏览 37提问于2018-01-16得票数 5

回答已采纳

3回答

基于mfcc和动态时间规整(dtw)的声音分类

mfcc

我的目标是在java中使用mfcc和dtw对非语音信号进行分类。然而，我被卡在了中间。如果有任何帮助，我将不胜感激。我已经为每个帧评估了13个mfcc值，但是有些值是负值，我很困惑我所遵循的过程是正确的还是错误的。目前我使用的是JAudio提供的代码。我也尝试过其他代码，它们也给了我负值。其次，对于每一帧，我得到了13个系数，考虑到一定长度的样本的157帧，我得到了157组13个<

浏览 1提问于2012-07-17得票数 2

回答已采纳

1回答

生成python中每个MFCC系数的直方图图

python-3.x、histogram、librosa、mfcc

如何在python中为从音频文件中提取的每个MFCC系数生成直方图图。如图所示，从实现中可以导出每个Matlab系数的直方图：我怎样才能在python中实现同样的情节呢？我使用librosa作为MFCC的特征提取。下面是我的MFCC特性提取代码：import librosa.displayimpor

浏览 9提问于2022-08-16得票数 0

回答已采纳

2回答

如何使用C#提取MFCC

我正在做一个个人项目，它需要我在C#中做一些信号处理和特征提取，更具体地说，提取，有没有在C#中计算MFCC的可用代码？此外，如果有任何为其他语言(Objective-C，C，C++，甚至Java)写得很好的东西，我想我能够得到这个想法，并用C#重写它。

浏览 3提问于2010-10-19得票数 5

1回答

Keras SimpleRNN型MFCC矢量

python-3.x、keras、recurrent-neural-network

我目前正试图在Keras中实现一个递归的神经网络。该数据由45.000个集合组成，其中每个条目都是(可变长度的) MFCC向量的集合，每13个系数：print(spoken[0])..]print(spoken.shape) # Gives: (45000,0) print(spoken[0].shape) # Gives (N, 13) --> N amount of MFCC

浏览 0提问于2018-03-22得票数 0

回答已采纳

1回答

语音情感识别中的MFCC* ( Mel频率系数平均值对性能的影响)*

signal-processing、speech-recognition、feature-extraction、feature-selection、mfcc

我正在做一个项目(从语音或语音音调中检测情感)，我正在使用MFCC，我在一定程度上理解了这一点，并且知道它们在语音方面是非常重要的。这是我从librosa使用的代码，用于从我的音频文件中提取特征，然后在神经网络中用于培训：mfccs = np.mean(librosa.feature.mfcc(y=dat, sr=sample_rat

浏览 1提问于2021-02-11得票数 1

回答已采纳

1回答

MFCC生成解析wav文件的"ValueError: index不能包含负值“。

python、audio、mfcc

如何使用通用代码提取缩放的MFCC数据：try: mfccs = librosa.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40) mfccsscaledprint("Error encountere

浏览 6提问于2020-12-05得票数 1

回答已采纳

1回答

Matlab中MFCC系数的一阶导数

matlab、signal-processing、feature-extraction、audio-processing、mfcc

我已经提取了mel频率倒谱系数(MFCC)特征(在Matlab中)用于一些语音分类。我目前正在考虑添加MFCC系数特征的一阶和二阶导数。我们如何从MFCC得到一阶和二阶导数？提前感谢

浏览 8提问于2019-11-30得票数 0

2回答

如何将MFCC系数应用于DTW

speech-recognition、mfcc

我正在尝试实现一个使用Mel频率倒谱系数(MFCC)和动态时间规整(DTW)的语音识别模块。所以我有一个M x N矩阵。

浏览 4提问于2017-02-18得票数 1

1回答

如何从MFCC中选择20个值？

wolfram-mathematica、mfcc

我是Mathematica 11.3的用户。为了制作一个用于乐器识别的分类器，我需要音乐数据集中的MFCC值。我从伊尔马斯那里拿到了数据。音乐的长度从5秒到20秒不等。如何在分类器中获得输入数据集的20个值？通常，我得到的是{2389,13}矩阵。enc=NetEncoder["AudioMFCC"

浏览 0提问于2018-12-01得票数 0

1回答

如何从mfcc系数中提取特征

speech-recognition、feature-extraction、mfcc

我已经成功地提取了MFCC系数，并得到了以下值 6.4996 0.2495 0.9815 0.0075 -0.2038 0.2084 0.8877现在如何从这些值中提取特征

浏览 3提问于2014-03-18得票数 0

点击加载更多