首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >算法建议:比较声音剪辑

算法建议:比较声音剪辑
EN

Stack Overflow用户
提问于 2015-02-14 19:28:09
回答 1查看 864关注 0票数 1

(不确定这是不是适合这个问题的地方)

我们正在分析成千上万的人们说话的声音片段,试图在音高、音节率等方面找到模式,以便建立一个签名数据库,将新的声音片段与情感相匹配。

虽然我熟悉一些人工智能算法(例如,Bayes),但我很好奇是否有人对我们可以使用的算法类型有任何想法。

总体概念(图2-5秒.wav剪辑):

代码语言:javascript
运行
复制
soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)

给出一个新的声音剪辑,我们想做一些类似于Shazzam的事情,除了返回一个可能的剪辑代表一种特殊的情感。

如有任何建议,将不胜感激!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-02-14 19:45:13

试着将剪辑的振幅和频率标准化,以使它们具有可比性。

然后测量幅度和谱性质,如方差、自相关、极小/极大值数等。

这些测量允许将每个剪辑看作n维空间中的矢量.您可以使用聚类分析方法来查找相邻的剪辑。主成分分析(PCA)可能有助于找到或多或少有意义的属性维度。

需要大量的阅读模式识别、信号处理和聚类分析文本才能知道什么是可能的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28519380

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档