首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将5-7分钟的音频分割成句子式音频片段,用于创建语音识别数据集。

将5-7分钟的音频分割成句子式音频片段,用于创建语音识别数据集。
EN

Data Science用户
提问于 2019-03-31 13:46:33
回答 1查看 210关注 0票数 1

我试图创建一个语音识别数据集,特别是印度口音。我是从同事那里得到的。每天我发送一个文章链接,并要求他们记录和上传到谷歌驱动器。

我对这种方法有意见。所有长度为5-7分钟的录音。我使用的是DeepSpeech模型,它需要10秒钟的音频语句.

建议我任何方法,如果可能的话,将音频文件分割成相应的句子短语或建立一个更好的5分钟长的音频文件。更多的建议是欢迎在一个更好的方法来创建一个演讲文本数据集。

EN

回答 1

Data Science用户

发布于 2019-04-12 19:58:00

典型的方法是将剪辑切割成连续的部分,并在每个这样的部分上运行模型。有时使用一点重叠,比如10%。然后,您必须决定如何处理这些重叠中的潜在冲突。一个好的模型通常对沉默是稳健的,否则你可以尝试在你的10秒窗口的开始和结束时减少沉默。

librosa.util.frame是在Python中实现这一目的的一种实用方法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/48292

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档