将MFCC与视频帧匹配_将字典与数据帧匹配_将Kinect音频与视频匹配 - 腾讯云开发者社区

list、audio、librosa、mfcc

我从一段视频中提取了视频帧和mfcc。我得到了(524，64，64)个视频帧和一个(80,525) mfcc的形状。数据匹配但维度反转的帧数。如何使mfcc对齐到(525，80)的大小。

浏览 25提问于2021-04-26得票数 0

回答已采纳

1回答

MFCC算法的Python实现

python、python-2.7、signals、mfcc

我有一个数据库，其中包含一个视频流。我想从图像和MFCC音频计算LBP特征，对于视频中的每一个帧，我都有一些注释。注释与视频帧和视频的时间内联。因此，我想映射从注释到mfcc结果的时间。我知道sample_rate = 44100from python_speech_features import logfbankimport scip

浏览 0提问于2017-11-27得票数 4

1回答

我正在研究乌尔都语(巴基斯坦，印度，孟加拉)语音识别，将乌尔都语语音翻译成乌尔都语单词。到目前为止，我什么也没做，只是找到了从数据帧中提取mfcc的meyda javascript库。在对一个音素运行meyda处理后，它为每个音素创建4到5个帧，其中每个帧包含前12个值中的每个mfcc。由于信誉低于10，post图片被禁用。但你可以在下面的链接上看到图片。该图像包含7帧音素/b/。每个帧包括13个mfcc。红色长垂

浏览 2提问于2016-09-28得票数 2

1回答

Mel mfcc的组成部分是什么？

librosa、mfcc

在查看这一行代码的输出时：print("MFCC Shape = ", mfccs.shape) 我得到了MFCC Shape = (40,1876)的回复。

浏览 0提问于2020-12-08得票数 1

回答已采纳

2回答

机器学习--对解决Python舍入误差有什么建议吗？

python、rounding、librosa

我正在使用Python将元素从音乐中分离出来。训练模型时，我将音频分解为多个帧，并为每个帧添加一个标签-1或0。不幸的是，由于舍入误差，我的标签总是短1到2帧。将我的音频转换为帧，我得到一个值(13,3709) for y in audio: mfcc = librosa.feature.mfcc(y= y, sr= 16000, n_mfcc=13, n_fft=2048, hop_l

浏览 0提问于2018-04-06得票数 2

2回答

如何取MFCC中的前13个系数

c++、mfcc

我对MFCC有点麻烦。我已经一步一步地遵循了教程。在步骤“窗口”之后，我计算每一帧的DFT。我的问题是:剩下的步骤，包括"Mel-filter bank"，"log“和"DCT"，是否适用于每一帧？我感到困惑，因为在"DCT“步骤中，我们将采用之前计算的前13个系数。那么我们需要用什么帧来拍摄呢？我真的需要一个清楚的解释

浏览 0提问于2013-07-09得票数 1

回答已采纳

1回答

基于带注释的文件为音频段生成mfcc

python、audio、mfcc、librosa

我的主要目标是向ANN提供mfcc功能。背景：import librosamfcc=librosa.feature.mfcc(y=y, sr=sr)如何根据注释中的段计算mfcc。Part2:如何最好地存储这些mfcc，以便将它们传递给keras。也就是说，应该将每个音频段计算的所有<

浏览 0提问于2018-01-19得票数 2

回答已采纳

1回答

keras:如何编写自定义的损失函数，将帧级别的预测聚合为歌曲级别的预测

python、machine-learning、audio、keras、deep-learning

对于每首歌曲，我将它们切成小帧(5s)，以生成MFCC作为神经网络的输入特征，并且每个帧都有一个关联的歌曲流派标签。但现在我编写X_train的方式是帧级别的帧，而biney交叉熵损失函数是在帧级别定义的。我想知道如何自定义损失函数，使其在帧级预测的聚合(例如，歌曲的每个帧预测的多数投票)上最小化。目前，我所拥有的是： model_19mfcc = Model(input_shape = (X_train19.shape[1], X_

浏览 11提问于2019-03-21得票数 1

回答已采纳

1回答

如何在帧上分割语音数据并计算MFCC

speech-recognition、speech-to-text、speech、cmusphinx

(可与步骤1互换) 离散余弦变换：(尚未详细说明--但要知道这将给我一组MFCC，也称为每个输入话语的声矢量。Delta和Delta谱:我知道这是用来计算MFCC的增量系数和双δ系数的，不是很多。在此之后，我认为需要使用HMMs或AN

浏览 2提问于2016-01-08得票数 7

回答已采纳

1回答

执行命令提取mfcc后返回的是什么？

python、librosa、mfcc、soundfile

我一直在学习声音分析，我在其中遇到了术语mfcc。因此，当我执行librosa.feature.mfcc(y=X, sr=sample_rate, n_mfcc=40)时，我得到了40×216号形状的numpy数组。所以我从216帧中提取了40个特征。但是在这里，框架的确切含义是什么，它是否类似于采样率，以及我们在加载音频文件时定义它的位置。

浏览 29提问于2020-04-20得票数 1

回答已采纳

1回答

根据帧对MFCC进行分组

speech-recognition、mfcc

当计算音频信号的各个帧的MFCC时，将MFCC的矩阵x时间帧推广到该信号的一组MFCC是明智的吗？如果是，这会是一个平均值吗？我的意思是，通过平均，MFCC矩阵所包含的信息的准确性被扭曲/减少的程度，仍然可以得到可靠的答案吗？

浏览 11提问于2019-11-05得票数 0

1回答

整首歌曲的mfcc与为同一首歌曲的片段计算的mfcc不同

python、mfcc、librosa

我计算了一首30秒的歌曲的MFCC，帧大小为25ms，跳跃大小为10ms，采样率为22050frames_mfcc=librosa.feature.mfcc(track[1], S=spectro, sr=sampleRate, n_mfcc=13) 然后

浏览 0提问于2018-03-09得票数 0

2回答

如何将MFCC系数应用于DTW

speech-recognition、mfcc

我正在尝试实现一个使用Mel频率倒谱系数(MFCC)和动态时间规整(DTW)的语音识别模块。所以我有一个M x N矩阵。

浏览 4提问于2017-02-18得票数 1

1回答

将两个音频文件与说话人进行比较，计算相似度

python、audio、librosa

大图片：试图在视频采访中识别代理欺诈行为。chroma_comp

浏览 7提问于2022-09-26得票数 1

回答已采纳

2回答

处理用ffmpeg解码的音频包

c++、audio、opencv、ffmpeg、htk

在我的另一个之后，我想知道是否可以对解码的音频包进行一些处理，比如MFCC提取。我使用的代码使用ffmpeg解码来自mpeg-2文件的音频和视频。视频处理是使用opencv完成的，因为这个库允许逐个抓取帧。我需要同时处理相应的音频样本。谢谢。

浏览 20提问于2012-02-25得票数 1

回答已采纳

1回答

MFCC特征提取

feature-extraction、mfcc、librosa

我想提取音频文件的mfcc特征在8000赫兹采样与帧大小为20毫秒和10毫秒重叠。librosa.feature.mfcc()函数的参数必须是什么。下面编写的代码是否指定20 the块与10 the重叠？x, sr = l.load('/home/user/Data/Audio/Tracks/Dev/FS_P01_dev_001.wav', sr = 8000) mfccs = l.feature.mfcc<

浏览 2提问于2019-07-06得票数 2

回答已采纳

1回答

如何在提取MFCC特征后计算音频文件的时间线

python、audio、audio-processing、librosa、mfcc

如何使用python_speech_features计算音频文件在提取MFCC特征后的时间线这个想法是为了得到MFCC样本的时间线 import librosa mfcc_feat= python_speech_features.mfcc(samples, s

浏览 21提问于2020-06-21得票数 0

回答已采纳

1回答

如何使用MFCC向量对单个音频文件进行分类？

audio、classification、knn、mfcc

通过在MFCC上遵循一些教程，我将样本划分为多个帧(准确地说是291个帧)，并从每个帧获得MFCC。现在我有291个特征向量，每个向量的长度是13。我的问题是:如何准确地将这些向量与分类器(例如k-NN)一起使用？我有291个代表1个样本的向量。我知道如何对1个样本使用1个向量，但如果我有291个向量，我不知道该怎么办。

浏览 5提问于2013-05-14得票数 4

回答已采纳

1回答

如何在Python中以数据框的形式存储变量中的列表？

python、list、dataframe、loops、store

我正在尝试将这些列表存储在一个变量中，该变量是从一个循环中创建的一个数据帧。['mfcc_1' 'mfcc_2' 'mfcc_4' 'mfcc_6' 'mfcc_3' 'mfcc_5' 'delta_0' 'mfcc_8' 'mfcc_9'

浏览 0提问于2020-10-30得票数 0

2回答

如何使用C#提取MFCC

我正在做一个个人项目，它需要我在C#中做一些信号处理和特征提取，更具体地说，提取，有没有在C#中计算MFCC的可用代码？

浏览 3提问于2010-10-19得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云