首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能基础(八)

上一节学习了把声波转换成电信号,然后离散换成数字信息,今天学习怎样用计算机识别音乐风格。

音乐风格有爵士,摇滚,嘻哈,古典等十多种,计算机是怎样通过声音的数字信息加以区别的呢?

计算机识别声音分为以下几个步骤:1,输入声音的数字信息,2,通过特征提取器提取特征,3,声音的特征信息通过分类器进行分类,4,对声音的风格给出结论。

比如一段30秒4万4千赫兹的声音,一秒有4万4千个数据,对应的向量是44000个维数,30秒就是大约130万维,使用分类器直接对其分类,计算机负担太重,工作效率太低,所以需要对这个数据信息进一步处理,提取更有效的特征信息,这种办法就是——梅尔频率倒谱系数。

梅尔频率(Mel-frequency):是一种特殊的频率刻度,它与普通频率存在一种如下的函数关系:

这样把普通频率转换成梅尔频率,其图像如下:

由于函数转换的关系,表现在梅尔频率中的等长的频率区间,在普通频率下是不等长的频率区间,但这种低频分辨率高,高频分辨率低正好符合人类对声音的敏感度。

把梅尔频率分成26个区间,取均值,得到一个26维的特征向量。

倒谱:把这个26维特征向量再做数学变换后得到一个13维的特征。

梅尔频率是对普通频率的一种粗略刻画,这种刻画很好的保存了声音的一个重要特征——共振峰。

共振峰:是指声音频谱上能量相对集中的一些区域。如下图:

我们已经提取了声音的特征数据了,下一步要设计一个分类器,区别它们。

这个分类器就像我们在做图像识别一样,通过向量的积运算,使之边界清晰,这个运算就是以前学习过的卷积运算,化成卷积层和池化层。

通过对卷积层和池化层的特征分析,从而判断音乐风格。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190206G0DW7300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券