问将5-7分钟的音频分割成句子式音频片段，用于创建语音识别数据集。
EN

Data Science用户

提问于 2019-03-31 13:46:33

回答 1查看 210关注 0票数 1

我试图创建一个语音识别数据集，特别是印度口音。我是从同事那里得到的。每天我发送一个文章链接，并要求他们记录和上传到谷歌驱动器。

我对这种方法有意见。所有长度为5-7分钟的录音。我使用的是DeepSpeech模型，它需要10秒钟的音频语句.

建议我任何方法，如果可能的话，将音频文件分割成相应的句子短语或建立一个更好的5分钟长的音频文件。更多的建议是欢迎在一个更好的方法来创建一个演讲文本数据集。

发布于 2019-04-12 19:58:00

典型的方法是将剪辑切割成连续的部分，并在每个这样的部分上运行模型。有时使用一点重叠，比如10%。然后，您必须决定如何处理这些重叠中的潜在冲突。一个好的模型通常对沉默是稳健的，否则你可以尝试在你的10秒窗口的开始和结束时减少沉默。

librosa.util.frame是在Python中实现这一目的的一种实用方法。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/48292

复制

相似问题

问将5-7分钟的音频分割成句子式音频片段，用于创建语音识别数据集。EN