我正在寻找一个ios的API (理想情况下是免费的),将允许做一些语音识别。我已经看过一些关于这方面的帖子:iPhone speech recognition API?和 free speech recognition engines for iOS?,经过一些展望,我收集到了看起来相当有趣的sdk:
有没有那些真正从人群中脱颖而出并且相当新的?它们是如何真正区分开来的呢?
发布于 2012-02-10 15:18:03
如果你只想跟踪几个关键字,你不应该寻找语音识别应用程序接口或服务。这项任务称为关键字识别,它使用与语音识别不同的算法。语音识别试图找到所有已经说过的单词,因此它比关键词识别消耗了更多的资源。关键字搜索器仅尝试查找少数选定的关键字或关键短语。这是一种简单且消耗资源较少的方法。
存档此功能唯一可能的解决方案是使用开源包,如由Pocketsphinx提供支持的OpenEars
http://www.politepix.com/openears
Openears有实现类似功能的Rejecto插件。
Pocketsphinx自己最近也实现了开源有效的关键字识别,但它还没有进入Openers。它只能通过pocketsphinx使用,您需要创建kws搜索并设置要查找的目标单词。我希望这个功能很快也能在OpenEars上实现。
发布于 2012-02-09 07:22:55
Nuance为开发人员提供免费访问(但不是大容量)-请参阅http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html或http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home
Nuance服务通常以商业方式提供,需要预付费用和交易费。上面有趣的消息是,他们现在免费向开发人员提供少量的服务。因此,对于开发、测试和演示,您可能可以使用免费的Nuance服务。然而,与Android免费提供的谷歌服务不同,如果你的应用程序有数千名用户,你可能必须为Nuance服务付费。
发布于 2013-03-10 18:45:50
我们自2008年以来一直在开发Julius SDK,它基于CeedVocal & FLite开源项目。
这里有一些背景:早在2008年,我们就想让我们的应用程序(语音识别)用于语音识别,基本上选择了Julius (使用Pocket Sphinx犹豫了一下,看起来也不错),并优化了文件格式,使其在1-2秒内启动,而不是在原始iPhone上启动20秒。然后我们尽职尽责地用6种语言训练我们自己的声学模型。我们设计了API,并最终决定将其作为SDK提供给其他开发人员。
CeedVocal基本上支持两种操作模式:
small spotting matching of words (或small phrases)
)
在第一种操作模式中,它尝试将输入语音与其可接受输入列表中的单词(或短语)对齐。这迫使输入到预先知道的单词,即使语音是其他的东西。精确度很好。在第二种操作模式中,它将尝试将其关键字之一选入语音流。这是一个困难的案例,它可能不那么准确。
https://stackoverflow.com/questions/9202583
复制相似问题