首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于声谱图的深度学习

基于声谱图的深度学习
EN

Data Science用户
提问于 2016-01-29 15:39:26
回答 2查看 6.9K关注 0票数 12

我正在研究用光谱图对声音(例如动物的声音)进行分类的可能性。其思想是使用深卷积神经网络识别光谱图中的片段,并输出一个(或多个)类标签。这不是一个新想法(例如,请参见鲸鱼声音分类音乐风格识别)。

我面临的问题是,我有不同长度的声音文件,因此有不同大小的光谱图。到目前为止,我看到的每一种方法都使用固定大小的声音样本,但我不能这样做,因为我的声音文件可能有10秒或2分钟长。

例如,鸟的声音在开头,青蛙的声音在结尾(输出应该是“鸟,青蛙”)。我目前的解决方案是在神经网络中添加一个时间分量(创建更多的递归神经网络),但我现在想保持简单。有什么想法,链接,教程吗……?

EN

回答 2

Data Science用户

回答已采纳

发布于 2017-07-02 11:37:14

RNNs没有产生足够好的效果,也很难训练,所以我选择了CNNs。

因为特定的动物声音只有几秒钟长,所以我们可以把声谱图分成几块。我用了3秒。然后,我们对每个块执行分类,并对输出进行平均,以创建每个音频文件的单个预测。这是非常好的工作,也是简单的实现。

在这里可以找到更深入的解释:http://ceur-ws.org/Vol-1609/16090547.pdf

票数 5
EN

Data Science用户

发布于 2017-03-22 11:57:32

对于自动语音识别(ASR),滤波器组的功能与CNN在光谱图表1上的性能一样好。你可以在fbank上训练一个DBN系统来分类动物的声音.

在实践中,较长的语音被划分为较短的话语,因为维特比译码对较长的语音不能很好地工作。你也可以这么做。

你可以把较长的话语分成固定长度的较小的话语。将较长的话语分成较小的部分是很容易的。问题在于增加长度,更小的话语达到固定的长度。

你可以扭曲光谱图的频率轴,以增强较小的语态。这种数据增强已经被证明可以改善ASR性能的数据预兆

对于包含多个声音的更长的语音,您可以使用音乐分割算法将其划分为多个语音。这些话语可以通过除法或加法形成固定长度。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/10025

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档