我正在开发一个后端语音识别软件,其中用户可以导入mp3文件。如何从这个数字音频文件中提取特征?我是不是应该先把它转换回模拟模式?
发布于 2015-05-26 23:35:11
您的问题不清楚,因为您错误地使用了术语模拟和数字。模拟是真实世界中的连续函数,即电压、压力等。数字是模拟信号的离散(采样)和量化版本。你必须计算你的音频帧的快速傅立叶变换时,计算MFCC的。你只能从数字信号中提取MFCC-这是相当不可能用模拟的。
如果您正在询问是否可以从mp3文件中提取MFCC,那么可以-这是可能的。你所需要做的就是执行标准的算法,然后你就可以得到你的特征了--显然,这超出了这个问题的范围。
通过对样本平方来计算data.
发布于 2015-05-27 16:20:35
你在这里把事情搞混了,就像@jojek说你可以用数字信号做所有的事情。这是教程中的一个很好的地方:
http://practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/
这个更实用:
http://www.speech.cs.cmu.edu/15-492/slides/03_mfcc.pdf
来自维基百科:[http://en.wikipedia.org/wiki/Mel-frequency_cepstrum]
MFCC通常派生如下:1
傅立叶变换(
这里有一个Matlab工具箱,可以帮助你更好地理解它:
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
https://stackoverflow.com/questions/30462170
复制相似问题