谷歌最近在语音识别软件方面取得了很大进展,该软件被用于几个开源产品,例如Chromium Web Speech和Android免提短信。我想使用他们的语音识别作为我的服务器堆栈的一部分,但我找不到太多关于它的信息。
文本识别软件是否以库或软件包的形式提供?或者,我可以从另一个程序调用chromium,将一些音频文件转录成文本吗?
发布于 2013-05-29 23:17:04
Web Speech API被设计为只能在Chrome或Android环境中使用。客户端有很多工作要做,所以没有公共服务器到服务器的API来获取音频文件并对其进行处理。
如果你搜索github,你会发现像https://gist.github.com/alotaiba/1730160这样的工具,但我相当确定这种访问方法是100%不支持,不认可或确认继续工作的。
发布于 2013-06-23 12:11:37
前面在https://gist.github.com/alotaiba/1730160中提到的方法对我来说是有效的。我每天都在我的家庭自动化程序中使用它。我使用python脚本来捕获音频,并确定什么是有用的音频或只是噪声,然后它将音频片段发送到google,并在一秒钟内返回文本!我已经成功地将它集成到我的程序中,如果你在周围搜索,你会发现更多的人也有!
https://stackoverflow.com/questions/15581458
复制相似问题