前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用VAD将长语音分割的多段短语音

使用VAD将长语音分割的多段短语音

作者头像
夜雨飘零
发布2022-11-28 15:54:54
1.4K0
发布2022-11-28 15:54:54
举报
文章被收录于专栏:CSDN博客CSDN博客

今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是PPASR的一个小功能,这个功能是基于深度学习实现的。

使用

首先要安装PPASR库。

代码语言:javascript
复制
python -m pip install ppasr -i https://pypi.tuna.tsinghua.edu.cn/simple -U

使用如下,几行代码就可以获取活动语音的位置。这里要注意几点,首先是输入的数据必须是float32,然后是采样率必须是8000或者16000,其他采样率,例如16000的倍数应该也可以,但不保证准确率。

代码语言:javascript
复制
import soundfile

from ppasr.infer_utils.vad_predictor import VADPredictor

vad_predictor = VADPredictor()

wav, sr = soundfile.read('test_long.wav', dtype='float32')

speech_timestamps = vad_predictor.get_speech_timestamps(wav, sr)
print(speech_timestamps)

输出结果如下,是一个列表,每个列表包含一个字典,字典的数据就是活动语音的开始位置和结束位置。

代码语言:javascript
复制
[{'start': 11808, 'end': 28128}, {'start': 75296, 'end': 108512}, {'start': 124448, 'end': 141280}, {'start': 144416, 'end': 158688}, {'start': 184352, 'end': 196576}]

关于如何获取这些语音数据,也很简单,参考下面的代码。

代码语言:javascript
复制
for speech_timestamp in speech_timestamps:
    start, end = speech_timestamp['start'], speech_timestamp['end']
    corp_wav = wav[start: end]
    print(corp_wav.shape)
AIStudio 在线使用
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档