首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Microsoft语音产品/平台之间的差异

Microsoft语音产品/平台之间的差异
EN

Stack Overflow用户
提问于 2018-06-12 17:15:09
回答 1查看 1.9K关注 0票数 10

微软似乎提供了相当多的语音识别产品,我想知道它们之间的区别。

  • Microsoft语音API,或SAPI。但不知怎么的,Microsoft认知服务语音API有着相同的名字。
  • 现在,Microsoft上的认知服务提供了语音服务APIBing语音API。我认为对于语音到文本,这两个API是相同的。
  • 然后是System.Speech.Recognition (或桌面SAPI)、Microsoft.Speech.Recognition (或Server )和Windows.Media.Speech.Recognition这里这里对这三者之间的差异有一些解释。但我猜想它们是基于HMM的旧的语音识别模型,也不是神经网络模型,这三种模型都可以脱机使用,不需要互联网连接,对吗?
  • 对于Azure语音服务和bing语音API来说,它们是更先进的语音模型,对吗?但我认为在本地机器上无法脱机使用它们,因为它们都需要订阅验证。(就算是如此,必应API似乎也有一个C#桌面库.)

本质上,我想要一个离线模型,它对我的会话数据(每次录音5-10分钟)进行语音到文本的转录,它识别多个扬声器并输出时间戳(或时间戳输出)。我现在对所有的选择感到有点困惑。如果有人能向我解释,非常感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-20 10:59:50

一个棘手的问题--也是为什么如此困难的部分原因:我们(微软)似乎提出了一个关于“语音”和“语音apis”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我试着深入了解我的团队(认知服务演讲-客户端SDK)的计划,但我无法预测近期内的所有方面。

早在微软就认识到演讲是一种重要的媒介,所以微软在其产品中有着广泛而长久的运作历史。有非常好的语音解决方案(与本地识别)可用,您列出了其中一些。

我们正致力于统一这一点,并为您提供一个地方,让您在微软找到最先进的演讲解决方案。这是“Microsoft”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/),目前正在预览中。

在服务方面,它将把我们的主要语音技术,如语音到文本、文本到语音、意图、翻译(和未来的服务)结合在一起。语音和语言模型不断改进和更新。我们正在为这个服务开发一个客户端SDK。随着时间的推移(今年晚些时候),这个SDK将在所有主要操作系统(Windows、Linux、Android、iOS)上使用,并支持主要的编程语言。我们将继续增强/改进对SDK的平台和语言支持。

这种在线服务和客户端SDK的结合将在今年晚些时候离开预览状态。

我们理解拥有本地识别能力的愿望。在我们的第一个SDK版本中,它不会是“开箱即用”(它也不是当前预览版的一部分)。SDK的一个目标是平台和语言之间的对等(功能和API)。这需要做很多工作。离线现在不是这件事的一部分,我不能在这里做任何预测,无论是在功能上还是时间线上.

因此,在我看来,新的语音服务和SDK是前进的方向。目标是在所有平台上建立统一的API,轻松访问所有Microsoft语音服务。它需要订阅键,它要求您已“连接”。我们正在努力使(服务器和客户端)在今年晚些时候摆脱预览状态。

希望这能帮上忙。

沃尔夫冈

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50822466

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档