首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于Tensorflow实现声音分类

y1, sr1 = librosa.load(data_path, duration=2.97) ps = librosa.feature.melspectrogram(y=y1, sr=sr1) 创建训练数据...在创建训练数据之前,我们最好清理一下数据,因为有一些音频包含了静音,这些静音会影响模型训练,我们需要把这些静音片段都裁剪掉,保证数据集干净。...我们搭建简单卷积神经网络,通过把音频数据转换成梅尔频谱,数据shape也相当于灰度图,所以我们可以当作图像输入创建一个深度神经网络。然后定义优化方法和获取训练和测试数据。...最后把这些文件按照训练数据要求创建数据列表,和生成TFRecord文件。..., sr = librosa.load(data_path) intervals = librosa.effects.split(wav, top_db=20) wav_output =

3.8K54

提取视频中音频——python三行程序搞定「建议收藏」

可以使用 librosa 包来分析音频,这里是librosa github 地址 安装 python 包 安装 librosa,cmd 或 bash 输入 pip install librosa...官网上说使用 conda 安装则自动安装 MP3 支持相关包。具体请去librosa github 地址了解。...读取音频 假设有一个 wav 文件路径为”e:/chrome/my_audio.wav”。科普一下音频数据内容,可以认为记录采样频率和每个采样点信号强度两个部分即可构成一个音频文件。...下面我们读取音频 import librosa audio, freq = librosa.load('e:/chrome/my_audio.wav') time = np.arange(0, len(...画信号强度图 当然我们可以使用 librosa工具来分析,可以修掉音频首尾其他信息,画信号强度图方式如下: import librosa.display audio, _ = librosa.effects.trim

1.3K20

基于Pytorch实现声纹识别模型

首先是创建一个数据列表,数据列表格式为,创建这个列表主要是方便之后读取,也是方便读取使用其他语音数据集,语音分类标签是指说话人唯一ID,不同语音数据集,可以通过编写对应生成数据列表函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式,作者发现这种格式读取速度很慢,所以笔者把全部mp3格式音频转换为wav格式,在创建数据列表之后,可能有些数据是错误...主要是把语音数据转换短时傅里叶变换幅度谱,使用librosa可以很方便计算音频特征,如梅尔频谱API为librosa.feature.melspectrogram(),输出是numpy值,可以直接用...wav, sr_ret = librosa.load(audio_path, sr=sr) linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:-0.259855 声纹识别 在上面的声纹对比基础上,我们创建infer_recognition.py实现声纹识别。

2.1K10

基于Kersa实现中文语音声纹识别

首先是创建一个数据列表,数据列表格式为,创建这个列表主要是方便之后读取,也是方便读取使用其他语音数据集,语音分类标签是指说话人唯一ID,不同语音数据集,可以通过编写对应生成数据列表函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式,作者发现这种格式读取速度很慢,所以笔者把全部mp3格式音频转换为wav格式,在创建数据列表之后,可能有些数据是错误.../zhmagicdata/5_970/5_970_20170616000122.wav3241数据读取有了上面创建数据列表和均值标准值,就可以用于训练读取。...wav, sr_ret = librosa.load(audio_path, sr=sr)linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:0.020499声纹识别在上面的声纹对比基础上,我们创建infer_recognition.py实现声纹识别。

2.7K20

基于PaddlePaddle实现声纹识别

首先是创建一个数据列表,数据列表格式为,创建这个列表主要是方便之后读取,也是方便读取使用其他语音数据集,语音分类标签是指说话人唯一ID,不同语音数据集,可以通过编写对应生成数据列表函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式,作者发现这种格式读取速度很慢,所以笔者把全部mp3格式音频转换为wav格式,在创建数据列表之后,可能有些数据是错误...主要是把语音数据转换短时傅里叶变换幅度谱,使用librosa可以很方便计算音频特征,如梅尔频谱API为librosa.feature.melspectrogram(),输出是numpy值,可以直接用...wav, sr_ret = librosa.load(audio_path, sr=sr) linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_2.wav 不是同一个人,相似度为:0.020499 声纹识别 在上面的声纹对比基础上,我们创建infer_recognition.py实现声纹识别。

1.5K20

基于Tensorflow2实现中文声纹识别

首先是创建一个数据列表,数据列表格式为,创建这个列表主要是方便之后读取,也是方便读取使用其他语音数据集,语音分类标签是指说话人唯一ID,不同语音数据集,可以通过编写对应生成数据列表函数...在create_data.py写下以下代码,因为中文语音语料数据集 这个数据集是mp3格式,作者发现这种格式读取速度很慢,所以笔者把全部mp3格式音频转换为wav格式,在创建数据列表之后,可能有些数据是错误...dataset/zhvoice/zhmagicdata/5_970/5_970_20170616000122.wav 3241 数据读取 有了上面创建数据列表和均值标准值,就可以用于训练读取。...wav, sr_ret = librosa.load(audio_path, sr=sr) linear = librosa.stft(extended_wav, n_fft=n_fft, win_length...和 audio/b_1.wav 不是同一个人,相似度为:0.503458 声纹识别 在上面的声纹对比基础上,我们创建infer_recognition.py实现声纹识别。

1.2K20
领券