我正在开发一个iOS应用程序,它执行基于语音的人工智能;也就是说,它的目的是从麦克风获取语音输入,将其转换为文本,发送给AI代理,然后通过扬声器输出返回的文本。我已经做好了所有的工作,只是使用一个按钮来开始和停止录制语音(SpeechKit用于语音识别,API.AI用于AI,亚马逊的Polly用于输出)。
我需要的是让麦克风始终处于打开状态,并在用户开始和结束谈话时自动开始和停止录音。这个应用程序是在一个非正统的环境下开发的,用户将无法访问屏幕(但他们将有一个高端的猎枪麦克风来记录他们的文字)。
我的研究表明,这块拼图被称为“语音活动检测”,似乎是整个基于语音的人工智能系统中最难的步骤之一。
我希望有人能提供一些简单的(Swift)代码来实现这一点,或者给我指出一些可以在这个项目中实现的像样的库/SDK的方向。
发布于 2017-08-08 00:06:38
为了更好地实现VAD算法,您可以使用py-webrtcvad。
它是一个C代码的Python接口,你可以从项目中导入C文件,并从swift中使用它们。
https://stackoverflow.com/questions/45528922
复制相似问题