我在使用基于会话的语音识别界面时遇到问题。具体地说,我试图将较长的音频流拆分成多个块,一次上传一个,并在最后接收完整的解析文本(而不是从单个来源流式传输分块的音频)。
IBM Watson为语音识别提供了无状态接口和有状态接口。更常见的无状态协议接受(分块的)音频流,并在完成时返回解析的内容。基于会话的方法允许客户端建立持久会话,使用多部分将音频作为多个块上传,并查询结果,这对于处理长流或处理麦克风输入非常有用。
我找到了一些和,但这些示例似乎都不起作用(可能已经过时了,因为接口正在快速发展)。
这是一个有代表性的示例。下面的帖子将创建一个会话:
curl -X POST -u "us
我希望在没有- curl或ibm_watson模块的情况下使用IBM语音识别服务。
我的尝试如下:
import speech_recognition as sr
r = sr.Recognizer()
text = r.recognize_ibm(audio,username='',password='')
即使我有IBM云语音文本的“服务凭据”,我也找不到该函数的正确形式。
在recognize_ibm()的文档中,有人说我需要输入才能找到格式的username。
但是link_1坏了。在哪里可以找到username和password?
我还尝试了text