根据帧对MFCC进行分组

文章/答案/技术大牛

发布

1回答

speech-recognition、mfcc

当计算音频信号的各个帧的MFCC时，将MFCC的矩阵x时间帧推广到该信号的一组MFCC是明智的吗？如果是，这会是一个平均值吗？我的意思是，通过平均，MFCC矩阵所包含的信息的准确性被扭曲/减少的程度，仍然可以得到可靠的答案吗？

浏览 11提问于2019-11-05得票数 0

1回答

如何使用MFCC向量对单个音频文件进行分类？

audio、classification、knn、mfcc

通过在MFCC上遵循一些教程，我将样本划分为多个帧(准确地说是291个帧)，并从每个帧获得MFCC。现在我有291个特征向量，每个向量的长度是13。我知道如何对1个样本使用1个向量，但如果我有291个向量，我不知道该怎么办。我真的找不到任何地方的解释。

浏览 5提问于2013-05-14得票数 4

回答已采纳

2回答

如何取MFCC中的前13个系数

c++、mfcc

我对MFCC有点麻烦。我已经一步一步地遵循了教程。在步骤“窗口”之后，我计算每一帧的DFT。我的问题是:剩下的步骤，包括"Mel-filter bank"，"log“和"DCT"，是否适用于每一帧？那么我们需要用什么帧来拍摄呢？我真的需要一个清楚的解释

浏览 0提问于2013-07-09得票数 1

回答已采纳

1回答

如何提取音频的mfcc特征并将其传递给cnn以训练模型？

python、conv-neural-network、mfcc

如何使用MFCC算法提取音频特征，并将其与卷积神经网络一起使用来训练模型？我已经使用MFCC提取了音频的特征，并且文件包含浮点列，但我无法区分这些列？# only get MFCCs from .wavs

浏览 146提问于2019-09-24得票数 0

2回答

K-均值算法在ASR MFCC系数中的应用

speech-recognition、k-means、speech、mfcc

我已经将我的音频信号分成20毫秒的帧和10毫秒的重叠。因此，我有500帧。我已经计算了每一帧的MFCC系数。我想使用K均值算法对每一帧进行矢量量化。那么我该如何继续呢？是否采用相邻帧并将K均值应用于相邻帧</e

浏览 1提问于2017-03-12得票数 0

1回答

到目前为止，我什么也没做，只是找到了从数据帧中提取mfcc的meyda javascript库。一些文件说，对于ASR，需要26个mfcc中的前12个或13个。在对一个音素运行meyda处理后，它为每个音素创建4到5个帧，其中每个帧包含前12个值中的每个mfcc。由于信誉低于10，post图片被禁用。但你可以在下面的链接上看到图片。该图像包含7帧音素/b/。每个帧包括13个mfcc。红色长垂直线的值是438，其他值

浏览 2提问于2016-09-28得票数 2

1回答

理解MFCC的输出

r、signal-processing、mfcc

我想提取声音的MFCC，因为我读到MFCC是自动语音识别的一个很好的参数。因此，我在RStudio中尝试了如下所示： wl=512mfcc.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,TRUE, lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE) 它产生了一个13*30的数据帧，我对

浏览 58提问于2020-04-21得票数 0

1回答

声纹中有没有与文本无关的特征

artificial-intelligence、signal-processing、speech-recognition

我刚接触语音和说话人识别问题，我理解了mfcc的工作方式，但就我所理解的(并发现)不同的单词之间的系数不同。我的问题是:有没有其他与文本无关的特征提取方法？如果是这样的话，请再向他们说明。

浏览 3提问于2015-12-17得票数 0

3回答

基于mfcc和动态时间规整(dtw)的声音分类

mfcc

我的目标是在java中使用mfcc和dtw对非语音信号进行分类。然而，我被卡在了中间。如果有任何帮助，我将不胜感激。我已经为每个帧评估了13个mfcc值，但是有些值是负值，我很困惑我所遵循的过程是正确的还是错误的。目前我使用的是JAudio提供的代码。我也尝试过其他代码，它们也给了我负值。其次，对于每一帧，我得到了13个系数，考虑到一定长度的样本的157帧，我得到了157组13个mfcc。我很难使用DTW中的所有系数，因为dtw只给出两个时间信号之间的

浏览 1提问于2012-07-17得票数 2

回答已采纳

1回答

减少MFCC输出

python、mfcc、audio-analysis

我正在尝试使用python库分析歌曲音频，输出是一个numpy数组，该数组的大小非常大，因为MFCC是为音频的每一帧计算的。当我将此输出写入文件时，每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N帧信息减少到一行特征中？ )

浏览 19提问于2018-11-15得票数 0

1回答

TypeError: scatter()为参数'c‘获取了多个值

numpy、matplotlib、scipy、scatter-plot、hierarchical-clustering

我正在尝试对我的MFCC数组'signal_mfcc‘进行层次聚类，这是一个维数为(198，12)的ndarray。198个音频帧/观察值和12个系数/维度？(signal_mfcc, thresh, criterion="distance") 使用指定的阈值，输出变量' cluster‘是一个长度为198或(198 )的序列111...1，我假设它将所有数据指向单个集群然后，我使用pyplot用以下代码绘制scatter

浏览 334提问于2019-04-26得票数 0

回答已采纳

1回答

为什么在使用MFCC和Delta系数时对数似然会很奇怪

audio、machine-learning、mfcc、gmm、log-likelihood

我正在做一个需要从音频流中提取MFCC特征的项目。该项目主要包括分类，尽管为了扩展我们的数据集，我正在研究一种检测算法，以分离出我们感兴趣的声音分类部分。我正在测试不同的表示，由于数据的性质(我希望能提供更多细节，但与我合作的教授更愿意保密，我相当肯定)，我想在MFCC系数之上的增量系数将是有帮助的。我提取了40个MFCC系数和40个Delta系数，并使用这些系数进行检测。我有一组训练数据，其中包括以我感兴趣的音频流部分为中心的40毫秒窗口。然后，我正在对这些数据进行GMM训练。为了测试(以及它的实际用例

浏览 1提问于2017-10-26得票数 0

4回答

用于使用librosa进行音频分类的MFCC特征描述符

python、audio、machine-learning

我正在尝试为音频文件获取单向量特征表示，以用于机器学习任务(具体地说，使用神经网络进行分类)。我在计算机视觉和自然语言处理方面有经验，但我需要一些帮助来加快音频文件的速度。音频文件有各种各样的特征描述符，但MFCC似乎是用于音频分类任务最多的。我的问题是:如何获取音频文件的MFCC表示，它通常是一个矩阵(假设是系数矩阵)，并将其转换为单个特征向量？os.listdir('data'): prin

浏览 4提问于2014-09-23得票数 13

1回答

使用sklearn进行音乐流派分类:如何准确评估不同的模型

python、machine-learning、scikit-learn、statistical-sampling

我正在做一个项目，对来自5个不同流派(摇滚，电子，说唱，乡村，爵士)的30秒音频样本进行分类。我的数据集包含600首歌曲，每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列，标签是流派。基本上，对于30秒样本的每帧，我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后，我获得整个数据集，并使用sklearn的缩放函数。我已经做了一些测试，但我注意到结果会根据我是否进行随机采样/分层采样而有所不同。我假设在训练和测

浏览 3提问于2017-05-15得票数 1

1回答

如何在帧上分割语音数据并计算MFCC

speech-recognition、speech-to-text、speech、cmusphinx

此外，每段将有大约256帧和两段将有一个100帧分开？(即30*100/256毫秒?) 离散余弦变换：(尚未详细说明--但要知道这将给我一组MFCC，也称为每个输入话语的声矢量。Delta和Delta谱:我知道这是用来计算MFCC的增量系数和双δ系数的，不是很多。在此之后，我认为需要使用HMMs或ANNs对对应的音素<

浏览 2提问于2016-01-08得票数 7

回答已采纳

2回答

在不使用MFCC将其转换为模拟信号的情况下，您仍然可以从数字信号中提取特征吗？

signal-processing、feature-extraction、mfcc

我正在开发一个后端语音识别软件，其中用户可以导入mp3文件。如何从这个数字音频文件中提取特征？我是不是应该先把它转换回模拟模式？

浏览 3提问于2015-05-26得票数 0

1回答

基于带注释的文件为音频段生成mfcc

python、audio、mfcc、librosa

我的主要目标是向ANN提供mfcc功能。背景：import librosamfcc=librosa.feature.mfcc(y=y, sr=sr)如何根据注释中的段计算mfcc。Part2:如何最好地存储这些mfcc，以便将它们传递给keras。也就是说，应该将每个音频段计算的所有<

浏览 0提问于2018-01-19得票数 2

回答已采纳

1回答

如何训练具有不同大小输入的神经网络？

machine-learning、neural-network、conv-neural-network

我想用不同的声音训练我的神经网络。但是，每个声音的大小是不同的。有人知道如何用不同大小的输入训练神经网络吗？谢谢。

浏览 0提问于2016-12-09得票数 1

1回答

整首歌曲的mfcc与为同一首歌曲的片段计算的mfcc不同

python、mfcc、librosa

我计算了一首30秒的歌曲的MFCC，帧大小为25ms，跳跃大小为10ms，采样率为22050frames_mfcc=librosa.feature.mfcc(track[1], S=spectro, sr=sampleRate, n_mfcc=13) 然后

浏览 0提问于2018-03-09得票数 0

1回答

如何按Pandas中列的计数对数据进行分组？

python、pandas、csv

如何根据列的计数对数据进行分组，并在不同的帧中显示？CSV文件具有以下数据：1 OLEG FR 18由于每一行的列数不同，所以必须按列数对行进行分组，并显示3帧才能设置标头：COUNTRY AGE ID NAME AGE任何单词，我都需要按列的计数对<

浏览 2提问于2022-05-23得票数 0

回答已采纳

点击加载更多