我目前正在开发一个应用程序,它可以让心理学家管理他们的时间表和预算。作为概念证明,我想创建一个智能预约服务。可能有3种情况:
I know the client, I need to guess the day and time for his next appointment
I know the day, I need to guess which client and at what time
I know nothing, I need to guess which client, which day and what time
我目前正在学习深度学习算法,只是为了获得一点理论知识,但
是否有可能有不同的行为时,玻璃器皿是通过"OK玻璃“语音命令和触摸菜单选择?特别是,如果玻璃器皿是用"OK玻璃“语音命令启动的,我们将提示语音识别,否则,如果从触摸菜单中启动,则直接转到玻璃器皿。或者,有什么方法可以让应用程序知道它是以哪种方式发布的?我们正试图模仿Google Play Music Glassware所做的。
所以我有这个Mono音频文件,其中包括人们交谈,交谈暂停,然后他们再次交谈。当他们说话的时候,当他们不说话的时候,有孩子们不时地在背景中哭泣,汽车的休息声,你在外面听到的东西。
我的目标是在他们说话的时候保留这些部分,当他们不说话的时候把这些部分剪掉。没有必要对背景噪声进行滤波。
基本上,我的最终目标是有一个这样的削减清单
Start in seconds, End in seconds
我试过什么?
我只通过将所有包含语音的部分装配在一起来手动创建一个语音文件。(10秒)
我手工创建了一个只有噪音的文件,将所有不包含语音的部分装配在一起。(50秒)
我用快速傅里叶变换得到了频率+