经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?
Audio
音频的数据扩充主要有以下四种方式:
音频剪裁(Clip)
音频旋转(Roll)
音频调音(Tune)
音频加噪(Noise)
音频处理基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。
以下是Python的实现方式:
音频剪裁
音频旋转
音频调音
音频加噪,注意:在添加随机噪声时,保留0值,否则刺耳难忍!
领取专属 10元无门槛券
私享最新 技术干货