(不确定这是不是适合这个问题的地方)
我们正在分析成千上万的人们说话的声音片段,试图在音高、音节率等方面找到模式,以便建立一个签名数据库,将新的声音片段与情感相匹配。
虽然我熟悉一些人工智能算法(例如,Bayes),但我很好奇是否有人对我们可以使用的算法类型有任何想法。
总体概念(图2-5秒.wav剪辑):
soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)
给出一个新的声音剪辑,我们想做一些类似于Shazzam的事情,除了返回一个可能的剪辑代表一种特殊的情感。
如有任何建议,将不胜感激!
发布于 2015-02-14 19:45:13
试着将剪辑的振幅和频率标准化,以使它们具有可比性。
然后测量幅度和谱性质,如方差、自相关、极小/极大值数等。
这些测量允许将每个剪辑看作n维空间中的矢量.您可以使用聚类分析方法来查找相邻的剪辑。主成分分析(PCA)可能有助于找到或多或少有意义的属性维度。
需要大量的阅读模式识别、信号处理和聚类分析文本才能知道什么是可能的。
https://stackoverflow.com/questions/28519380
复制相似问题