文章/答案/技术大牛

发布

社区首页 >问答首页 >Microsoft语音产品/平台之间的差异

问Microsoft语音产品/平台之间的差异
EN

Stack Overflow用户

提问于 2018-06-12 17:15:09

回答 1查看 1.9K关注 0票数 10

微软似乎提供了相当多的语音识别产品，我想知道它们之间的区别。

有Microsoft语音API，或SAPI。但不知怎么的，Microsoft认知服务语音API有着相同的名字。
现在，Microsoft上的认知服务提供了语音服务API和Bing语音API。我认为对于语音到文本，这两个API是相同的。
然后是System.Speech.Recognition (或桌面SAPI)、Microsoft.Speech.Recognition (或Server )和Windows.Media.Speech.Recognition。这里和这里对这三者之间的差异有一些解释。但我猜想它们是基于HMM的旧的语音识别模型，也不是神经网络模型，这三种模型都可以脱机使用，不需要互联网连接，对吗？
对于Azure语音服务和bing语音API来说，它们是更先进的语音模型，对吗？但我认为在本地机器上无法脱机使用它们，因为它们都需要订阅验证。(就算是如此，必应API似乎也有一个C#桌面库.)

本质上，我想要一个离线模型，它对我的会话数据(每次录音5-10分钟)进行语音到文本的转录，它识别多个扬声器并输出时间戳(或时间戳输出)。我现在对所有的选择感到有点困惑。如果有人能向我解释，非常感谢！

microsoft-speech-platform

speech-recognition

speech-to-text

microsoft-cognitive

microsoft-speech-api

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-20 10:59:50

一个棘手的问题--也是为什么如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音apis”的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我试着深入了解我的团队(认知服务演讲-客户端SDK)的计划，但我无法预测近期内的所有方面。

早在微软就认识到演讲是一种重要的媒介，所以微软在其产品中有着广泛而长久的运作历史。有非常好的语音解决方案(与本地识别)可用，您列出了其中一些。

我们正致力于统一这一点，并为您提供一个地方，让您在微软找到最先进的演讲解决方案。这是“Microsoft”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/)，目前正在预览中。

在服务方面，它将把我们的主要语音技术，如语音到文本、文本到语音、意图、翻译(和未来的服务)结合在一起。语音和语言模型不断改进和更新。我们正在为这个服务开发一个客户端SDK。随着时间的推移(今年晚些时候)，这个SDK将在所有主要操作系统(Windows、Linux、Android、iOS)上使用，并支持主要的编程语言。我们将继续增强/改进对SDK的平台和语言支持。

这种在线服务和客户端SDK的结合将在今年晚些时候离开预览状态。

我们理解拥有本地识别能力的愿望。在我们的第一个SDK版本中，它不会是“开箱即用”(它也不是当前预览版的一部分)。SDK的一个目标是平台和语言之间的对等(功能和API)。这需要做很多工作。离线现在不是这件事的一部分，我不能在这里做任何预测，无论是在功能上还是时间线上.

因此，在我看来，新的语音服务和SDK是前进的方向。目标是在所有平台上建立统一的API，轻松访问所有Microsoft语音服务。它需要订阅键，它要求您已“连接”。我们正在努力使(服务器和客户端)在今年晚些时候摆脱预览状态。

希望这能帮上忙。

沃尔夫冈

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50822466

复制

相似问题

问Microsoft语音产品/平台之间的差异
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Microsoft语音产品/平台之间的差异EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Microsoft语音产品/平台之间的差异
EN