腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
根据
帧
对
MFCC
进行
分组
speech-recognition
、
mfcc
当计算音频信号的各个
帧
的
MFCC
时,将
MFCC
的矩阵x时间
帧
推广到该信号的一组
MFCC
是明智的吗?如果是,这会是一个平均值吗?我的意思是,通过平均,
MFCC
矩阵所包含的信息的准确性被扭曲/减少的程度,仍然可以得到可靠的答案吗?
浏览 11
提问于2019-11-05
得票数 0
1
回答
如何使用
MFCC
向量
对
单个音频文件
进行
分类?
audio
、
classification
、
knn
、
mfcc
通过在
MFCC
上遵循一些教程,我将样本划分为多个
帧
(准确地说是291个
帧
),并从每个
帧
获得
MFCC
。 现在我有291个特征向量,每个向量的长度是13。我知道如何
对
1个样本使用1个向量,但如果我有291个向量,我不知道该怎么办。我真的找不到任何地方的解释。
浏览 5
提问于2013-05-14
得票数 4
回答已采纳
2
回答
如何取
MFCC
中的前13个系数
c++
、
mfcc
我
对
MFCC
有点麻烦。我已经一步一步地遵循了教程。在步骤“窗口”之后,我计算每一
帧
的DFT。我的问题是:剩下的步骤,包括"Mel-filter bank","log“和"DCT",是否适用于每一
帧
?那么我们需要用什么
帧
来拍摄呢?我真的需要一个清楚的解释
浏览 0
提问于2013-07-09
得票数 1
回答已采纳
1
回答
如何提取音频的
mfcc
特征并将其传递给cnn以训练模型?
python
、
conv-neural-network
、
mfcc
如何使用
MFCC
算法提取音频特征,并将其与卷积神经网络一起使用来训练模型? 我已经使用
MFCC
提取了音频的特征,并且文件包含浮点列,但我无法区分这些列?# only get MFCCs from .wavs
浏览 146
提问于2019-09-24
得票数 0
2
回答
K-均值算法在ASR
MFCC
系数中的应用
speech-recognition
、
k-means
、
speech
、
mfcc
我已经将我的音频信号分成20毫秒的
帧
和10毫秒的重叠。因此,我有500
帧
。我已经计算了每一
帧
的
MFCC
系数。我想使用K均值算法
对
每一
帧
进行
矢量量化。那么我该如何继续呢?是否采用相邻
帧
并将K均值应用于相邻
帧</e
浏览 1
提问于2017-03-12
得票数 0
1
回答
在基于web的语音识别中使用mfccs的下一步
javascript
、
voice-recognition
、
mfcc
到目前为止,我什么也没做,只是找到了从数据
帧
中提取
mfcc
的meyda javascript库。一些文件说,对于ASR,需要26个
mfcc
中的前12个或13个。在对一个音素运行meyda处理后,它为每个音素创建4到5个
帧
,其中每个
帧
包含前12个值中的每个
mfcc
。由于信誉低于10,post图片被禁用。但你可以在下面的链接上看到图片。该图像包含7
帧
音素/b/。每个
帧
包括13个
mfcc
。红色长垂直线的值是438,其他值
浏览 2
提问于2016-09-28
得票数 2
1
回答
理解
MFCC
的输出
r
、
signal-processing
、
mfcc
我想提取声音的
MFCC
,因为我读到
MFCC
是自动语音识别的一个很好的参数。因此,我在RStudio中尝试了如下所示: wl=512
mfcc
.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,TRUE, lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE) 它产生了一个13*30的数据
帧
,我
对
浏览 58
提问于2020-04-21
得票数 0
1
回答
声纹中有没有与文本无关的特征
artificial-intelligence
、
signal-processing
、
speech-recognition
我刚接触语音和说话人识别问题,我理解了
mfcc
的工作方式,但就我所理解的(并发现)不同的单词之间的系数不同。我的问题是:有没有其他与文本无关的特征提取方法?如果是这样的话,请再向他们说明。
浏览 3
提问于2015-12-17
得票数 0
3
回答
基于
mfcc
和动态时间规整(dtw)的声音分类
mfcc
我的目标是在java中使用
mfcc
和dtw
对
非语音信号
进行
分类。然而,我被卡在了中间。如果有任何帮助,我将不胜感激。我已经为每个
帧
评估了13个
mfcc
值,但是有些值是负值,我很困惑我所遵循的过程是正确的还是错误的。目前我使用的是JAudio提供的代码。我也尝试过其他代码,它们也给了我负值。其次,对于每一
帧
,我得到了13个系数,考虑到一定长度的样本的157
帧
,我得到了157组13个
mfcc
。我很难使用DTW中的所有系数,因为dtw只给出两个时间信号之间的
浏览 1
提问于2012-07-17
得票数 2
回答已采纳
1
回答
减少
MFCC
输出
python
、
mfcc
、
audio-analysis
我正在尝试使用python库分析歌曲音频,输出是一个numpy数组,该数组的大小非常大,因为
MFCC
是为音频的每一
帧
计算的。当我将此输出写入文件时,每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N
帧
信息减少到一行特征中? )
浏览 19
提问于2018-11-15
得票数 0
1
回答
TypeError: scatter()为参数'c‘获取了多个值
numpy
、
matplotlib
、
scipy
、
scatter-plot
、
hierarchical-clustering
我正在尝试
对
我的
MFCC
数组'signal_
mfcc
‘
进行
层次聚类,这是一个维数为(198,12)的ndarray。198个音频
帧
/观察值和12个系数/维度?(signal_
mfcc
, thresh, criterion="distance") 使用指定的阈值,输出变量' cluster‘是一个长度为198或(198 )的序列111...1,我假设它将所有数据指向单个集群然后,我使用pyplot用以下代码绘制scatter
浏览 334
提问于2019-04-26
得票数 0
回答已采纳
1
回答
为什么在使用
MFCC
和Delta系数时对数似然会很奇怪
audio
、
machine-learning
、
mfcc
、
gmm
、
log-likelihood
我正在做一个需要从音频流中提取
MFCC
特征的项目。该项目主要包括分类,尽管为了扩展我们的数据集,我正在研究一种检测算法,以分离出我们感兴趣的声音分类部分。我正在测试不同的表示,由于数据的性质(我希望能提供更多细节,但与我合作的教授更愿意保密,我相当肯定),我想在
MFCC
系数之上的增量系数将是有帮助的。我提取了40个
MFCC
系数和40个Delta系数,并使用这些系数
进行
检测。我有一组训练数据,其中包括以我感兴趣的音频流部分为中心的40毫秒窗口。然后,我正在对这些数据
进行
GMM训练。为了测试(以及它的实际用例
浏览 1
提问于2017-10-26
得票数 0
4
回答
用于使用librosa
进行
音频分类的
MFCC
特征描述符
python
、
audio
、
machine-learning
我正在尝试为音频文件获取单向量特征表示,以用于机器学习任务(具体地说,使用神经网络
进行
分类)。我在计算机视觉和自然语言处理方面有经验,但我需要一些帮助来加快音频文件的速度。音频文件有各种各样的特征描述符,但
MFCC
似乎是用于音频分类任务最多的。我的问题是:如何获取音频文件的
MFCC
表示,它通常是一个矩阵(假设是系数矩阵),并将其转换为单个特征向量?os.listdir('data'): prin
浏览 4
提问于2014-09-23
得票数 13
1
回答
使用sklearn
进行
音乐流派分类:如何准确评估不同的模型
python
、
machine-learning
、
scikit-learn
、
statistical-sampling
我正在做一个项目,
对
来自5个不同流派(摇滚,电子,说唱,乡村,爵士)的30秒音频样本
进行
分类。我的数据集包含600首歌曲,每个流派恰好有120首。特征是每首歌曲的13个
mfcc
的一维阵列,标签是流派。基本上,对于30秒样本的每
帧
,我取每组13个
mfcc
的平均值。这导致每首歌曲有13个
mfcc
。然后,我获得整个数据集,并使用sklearn的缩放函数。我已经做了一些测试,但我注意到结果会
根据
我是否
进行
随机采样/分层采样而有所不同。我假设在训练和测
浏览 3
提问于2017-05-15
得票数 1
1
回答
如何在
帧
上分割语音数据并计算
MFCC
speech-recognition
、
speech-to-text
、
speech
、
cmusphinx
此外,每段将有大约256
帧
和两段将有一个100
帧
分开?(即30*100/256毫秒?) 离散余弦变换:(尚未详细说明--但要知道这将给我一组
MFCC
,也称为每个输入话语的声矢量。Delta和Delta谱:我知道这是用来计算
MFCC
的增量系数和双δ系数的,不是很多。在此之后,我认为需要使用HMMs或ANNs对对应的音素<
浏览 2
提问于2016-01-08
得票数 7
回答已采纳
2
回答
在不使用
MFCC
将其转换为模拟信号的情况下,您仍然可以从数字信号中提取特征吗?
signal-processing
、
feature-extraction
、
mfcc
我正在开发一个后端语音识别软件,其中用户可以导入mp3文件。如何从这个数字音频文件中提取特征?我是不是应该先把它转换回模拟模式?
浏览 3
提问于2015-05-26
得票数 0
1
回答
基于带注释的文件为音频段生成
mfcc
python
、
audio
、
mfcc
、
librosa
我的主要目标是向ANN提供
mfcc
功能。背景:import librosa
mfcc
=librosa.feature.
mfcc
(y=y, sr=sr)如何
根据
注释中的段计算
mfcc
。Part2:如何最好地存储这些
mfcc
,以便将它们传递给keras。也就是说,应该将每个音频段计算的所有<
浏览 0
提问于2018-01-19
得票数 2
回答已采纳
1
回答
如何训练具有不同大小输入的神经网络?
machine-learning
、
neural-network
、
conv-neural-network
我想用不同的声音训练我的神经网络。但是,每个声音的大小是不同的。有人知道如何用不同大小的输入训练神经网络吗?谢谢。
浏览 0
提问于2016-12-09
得票数 1
1
回答
整首歌曲的
mfcc
与为同一首歌曲的片段计算的
mfcc
不同
python
、
mfcc
、
librosa
我计算了一首30秒的歌曲的
MFCC
,
帧
大小为25ms,跳跃大小为10ms,采样率为22050frames_
mfcc
=librosa.feature.
mfcc
(track[1], S=spectro, sr=sampleRate, n_
mfcc
=13) 然后
浏览 0
提问于2018-03-09
得票数 0
1
回答
如何按Pandas中列的计数对数据
进行
分组
?
python
、
pandas
、
csv
如何
根据
列的计数对数据
进行
分组
,并在不同的
帧
中显示?CSV文件具有以下数据:1 OLEG FR 18由于每一行的列数不同,所以必须按列数
对
行
进行
分组
,并显示3
帧
才能设置标头:COUNTRY AGE ID NAME AGE任何单词,我都需要按列的计数
对<
浏览 2
提问于2022-05-23
得票数 0
回答已采纳
点击加载更多
相关
资讯
python学习-根据字典中的值的大小,对字典的项进行排序
杭州微帧申请毛刺边缘仿真定量方法等专利,对毛刺边缘的形态特征进行精确仿真
python处理两个json根据序号进行一对一组合
面向暴恐音视频的内容检测系统研究与实现
疑车无据:大熊猫何时交配才能怀上宝宝?四川学者用音频AI给出预测
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券