微软似乎提供了相当多的语音识别产品,我想知道它们之间的区别。
本质上,我想要一个离线模型,它对我的会话数据(每次录音5-10分钟)进行语音到文本的转录,它识别多个扬声器并输出时间戳(或时间戳输出)。我现在对所有的选择感到有点困惑。如果有人能向我解释,非常感谢!
发布于 2018-06-20 10:59:50
一个棘手的问题--也是为什么如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音apis”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我试着深入了解我的团队(认知服务演讲-客户端SDK)的计划,但我无法预测近期内的所有方面。
早在微软就认识到演讲是一种重要的媒介,所以微软在其产品中有着广泛而长久的运作历史。有非常好的语音解决方案(与本地识别)可用,您列出了其中一些。
我们正致力于统一这一点,并为您提供一个地方,让您在微软找到最先进的演讲解决方案。这是“Microsoft”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/),目前正在预览中。
在服务方面,它将把我们的主要语音技术,如语音到文本、文本到语音、意图、翻译(和未来的服务)结合在一起。语音和语言模型不断改进和更新。我们正在为这个服务开发一个客户端SDK。随着时间的推移(今年晚些时候),这个SDK将在所有主要操作系统(Windows、Linux、Android、iOS)上使用,并支持主要的编程语言。我们将继续增强/改进对SDK的平台和语言支持。
这种在线服务和客户端SDK的结合将在今年晚些时候离开预览状态。
我们理解拥有本地识别能力的愿望。在我们的第一个SDK版本中,它不会是“开箱即用”(它也不是当前预览版的一部分)。SDK的一个目标是平台和语言之间的对等(功能和API)。这需要做很多工作。离线现在不是这件事的一部分,我不能在这里做任何预测,无论是在功能上还是时间线上.
因此,在我看来,新的语音服务和SDK是前进的方向。目标是在所有平台上建立统一的API,轻松访问所有Microsoft语音服务。它需要订阅键,它要求您已“连接”。我们正在努力使(服务器和客户端)在今年晚些时候摆脱预览状态。
希望这能帮上忙。
沃尔夫冈
https://stackoverflow.com/questions/50822466
复制相似问题