首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python音频的数据扩充

Python音频的数据扩充

经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?

音频的数据扩充,主要有以下四种方式:

音频剪裁(Clip)

音频旋转(Roll)

音频调音(Tune)

音频加噪(Noise)

音频解析基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式

01

音频剪裁

importlibrosa

fromscipy.ioimportwavfiley, sr = librosa.load("../data/love_illusion.mp3")

# 读取音频printy.shape, srwavfile.write("../data/love_illusion_20s.mp3", sr, y[20* sr:40* sr])

# 写入音频

02

音频旋转

importcv2

importlibrosa

fromscipy.ioimportwavfiley, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 读取音频ly = len(y)y_tune = cv2.resize(y, (1, int(len(y) *1.2))).squeeze()lc = len(y_tune) - lyy_tune = y_tune[int(lc /2):int(lc /2) + ly]printy.shape, srwavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)

# 写入音频

03

音频调音

importcv2

importlibrosa

fromscipy.ioimportwavfiley, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 读取音频ly = len(y)y_tune = cv2.resize(y, (1, int(len(y) *1.2))).squeeze()lc = len(y_tune) - lyy_tune = y_tune[int(lc /2):int(lc /2) + ly]printy.shape, srwavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)

# 写入音频

04

音频加噪

importlibrosa

fromscipy.ioimportwavfile

importnumpyasnp

y, sr = librosa.load("../data/raw/love_illusion_20s.mp3")

# 读取音频wn = np.random.randn(len(y))y = np.where(y !=0.0, y +0.02* wn,0.0)

# 噪声不要添加到0上!printy.shape, srwavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)

# 写入音频

ML & AI∣一个有用的公众号

长按,识别二维码,加关注

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180414B0OHWZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券