我创建了一个自定义声学模型(它包括压缩文件中的一组语音数据文件,以及每个音频文件的转录,由文本文件中的一个选项卡隔开)并导入它。在创建部署之后,我尝试通过上传一个音频文件来测试端点,它按预期返回文本转录。
但计划如下:将微软提供的OOB声学模型与自定义语音合并。尝试了WPF示例(https://github.com/Microsoft/Cognitive-Speech-STT-Windows),它返回4个语音到文本转录.我们想要的是为每个消息(一个音频文件),用户提供这4个转录,他将选择哪一个是正确的。
现在,我们希望将录制的音频文件和正确的转录提供给自定义语音服务。我们如何以编程的方式导入声学数据并为其创建一个模型--(而不是手动上传整个音频压缩文件和带有文件名和转录等键值对的文本文件)?(每次编辑现有的声学数据,而不是导入新的数据)
或者,如果我们不能一个接一个地给它喂食(每次用户讲完),我们可以先将音频文件收集到zip文件,然后在整个对话结束后收集文本文件中的文件名和转录。但问题仍然是如何以编程方式进行导入和建模。或者甚至有可能。
谢谢你的帮助!
发布于 2017-02-27 08:41:08
自定义语音服务目前不提供以编程方式执行您所描述的内容的API。然而,有一个计划在未来几个月内发布API。
https://stackoverflow.com/questions/42416531
复制相似问题