我收集了一些原始的音频,从所有的会议,讲座和随意的谈话,我是其中的一部分。机器转录没有提供良好的结果(从Azure,AWS等)。我会把这两个data+label (audio+text)都转录成ML训练。
我的问题是是否要小(3-10秒)。音频文件(沉默时将其分割),然后转录每个小文件?还是带有subtitle.srt格式时间戳的大文件?如果我有一个带文本的长时间音频文件呢?我听说长文件有更多的错误的机会&不准确的训练。如果我添加时间戳(比如字幕文件srt )呢?我需要小音频文件吗?我试着用Azure定制的语言来训练和测试,但是它会抛出错误,说它不会处理大的音频文件。(所以推荐小块。)其他哪些ML平台(AWS、Watson、GCP)有它们的数据标签标准?抱歉,除了Azure小姐,我找不到别的。理想情况下,我将有自己的语音识别系统,干净的板(开放听取建议的模式选择),但需要知道的格式和风格的数据应该创建。
在我看来,音频分割(比方说,将30分钟的音频切割成200部分)可以自动完成,但是如何将文字记录分割成200行呢?(需要手动检查换行。),因此,对于大型数据集来说,这不是一个很好的选择。因此,在处理数据格式(为抄写者分配适当的指令)之前,确定数据格式是很重要的。那么问题又来了:(a)要有大的音频文件和时间戳记录,或者(b)要有带有单行文本的小音频文件?&如何?请指点。我做了一些研究,但终于敢于提出一个问题。
发布于 2020-08-05 09:06:21
通常,音频培训工具需要在小块上分割数据。分割并不是什么大问题,您可以使用分段脚本,例如segment_long_utterances.sh,如卡尔迪小组讨论中所描述的。除了dsalign、温和的或埃涅阿斯之外,还有许多其他的分割工具。
总的来说,从头开始的训练模型是相当复杂的过程,需要时间和数据(>5000小时的演讲正确注释)。建立一个新模型可能需要几个月的时间。
你最好先调查一下你的错误率不好的原因,它可能无法通过训练解决。如果信息已经丢失,那么您就无法真正修复它。一个更好的麦克风,不压缩数据和许多其他技巧可以显著提高识别精度。在标准语言模型不利于内容的情况下,您也可以对语言模型进行调整,以提高准确性。它比声学模型训练更容易,你只需要像描述的这里那样的文本。
https://datascience.stackexchange.com/questions/79697
复制相似问题