我正在研究用光谱图对声音(例如动物的声音)进行分类的可能性。其思想是使用深卷积神经网络识别光谱图中的片段,并输出一个(或多个)类标签。这不是一个新想法(例如,请参见鲸鱼声音分类或音乐风格识别)。
我面临的问题是,我有不同长度的声音文件,因此有不同大小的光谱图。到目前为止,我看到的每一种方法都使用固定大小的声音样本,但我不能这样做,因为我的声音文件可能有10秒或2分钟长。
例如,鸟的声音在开头,青蛙的声音在结尾(输出应该是“鸟,青蛙”)。我目前的解决方案是在神经网络中添加一个时间分量(创建更多的递归神经网络),但我现在想保持简单。有什么想法,链接,教程吗……?
发布于 2017-07-02 11:37:14
RNNs没有产生足够好的效果,也很难训练,所以我选择了CNNs。
因为特定的动物声音只有几秒钟长,所以我们可以把声谱图分成几块。我用了3秒。然后,我们对每个块执行分类,并对输出进行平均,以创建每个音频文件的单个预测。这是非常好的工作,也是简单的实现。
在这里可以找到更深入的解释:http://ceur-ws.org/Vol-1609/16090547.pdf。
发布于 2017-03-22 11:57:32
https://datascience.stackexchange.com/questions/10025
复制相似问题