问如何为语音识别准备音频文本数据
EN

Data Science用户

提问于 2020-08-03 06:50:54

回答 1查看 317关注 0票数 1

我收集了一些原始的音频，从所有的会议，讲座和随意的谈话，我是其中的一部分。机器转录没有提供良好的结果(从Azure，AWS等)。我会把这两个data+label (audio+text)都转录成ML训练。

我的问题是是否要小(3-10秒)。音频文件(沉默时将其分割)，然后转录每个小文件？还是带有subtitle.srt格式时间戳的大文件？如果我有一个带文本的长时间音频文件呢？我听说长文件有更多的错误的机会&不准确的训练。如果我添加时间戳(比如字幕文件srt )呢？我需要小音频文件吗？我试着用Azure定制的语言来训练和测试，但是它会抛出错误，说它不会处理大的音频文件。(所以推荐小块。)其他哪些ML平台(AWS、Watson、GCP)有它们的数据标签标准？抱歉，除了Azure小姐，我找不到别的。理想情况下，我将有自己的语音识别系统，干净的板(开放听取建议的模式选择)，但需要知道的格式和风格的数据应该创建。

在我看来，音频分割(比方说，将30分钟的音频切割成200部分)可以自动完成，但是如何将文字记录分割成200行呢？(需要手动检查换行。)，因此，对于大型数据集来说，这不是一个很好的选择。因此，在处理数据格式(为抄写者分配适当的指令)之前，确定数据格式是很重要的。那么问题又来了：(a)要有大的音频文件和时间戳记录，或者(b)要有带有单行文本的小音频文件？&如何？请指点。我做了一些研究，但终于敢于提出一个问题。

data-cleaning

speech-to-text

dataset

回答 1

Data Science用户

发布于 2020-08-05 09:06:21

通常，音频培训工具需要在小块上分割数据。分割并不是什么大问题，您可以使用分段脚本，例如segment_long_utterances.sh，如卡尔迪小组讨论中所描述的。除了dsalign、温和的或埃涅阿斯之外，还有许多其他的分割工具。

总的来说，从头开始的训练模型是相当复杂的过程，需要时间和数据(>5000小时的演讲正确注释)。建立一个新模型可能需要几个月的时间。

你最好先调查一下你的错误率不好的原因，它可能无法通过训练解决。如果信息已经丢失，那么您就无法真正修复它。一个更好的麦克风，不压缩数据和许多其他技巧可以显著提高识别精度。在标准语言模型不利于内容的情况下，您也可以对语言模型进行调整，以提高准确性。它比声学模型训练更容易，你只需要像描述的这里那样的文本。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/79697

复制

相似问题

问如何为语音识别准备音频文本数据
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为语音识别准备音频文本数据EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何为语音识别准备音频文本数据
EN