我试图创建一个语音识别数据集,特别是印度口音。我是从同事那里得到的。每天我发送一个文章链接,并要求他们记录和上传到谷歌驱动器。
我对这种方法有意见。所有长度为5-7分钟的录音。我使用的是DeepSpeech模型,它需要10秒钟的音频语句.
建议我任何方法,如果可能的话,将音频文件分割成相应的句子短语或建立一个更好的5分钟长的音频文件。更多的建议是欢迎在一个更好的方法来创建一个演讲文本数据集。
发布于 2019-04-12 19:58:00
典型的方法是将剪辑切割成连续的部分,并在每个这样的部分上运行模型。有时使用一点重叠,比如10%。然后,您必须决定如何处理这些重叠中的潜在冲突。一个好的模型通常对沉默是稳健的,否则你可以尝试在你的10秒窗口的开始和结束时减少沉默。
librosa.util.frame是在Python中实现这一目的的一种实用方法。
https://datascience.stackexchange.com/questions/48292
复制相似问题