我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
我想知道从哪里可以开始语音识别。不是使用库或任何相当“黑盒”的东西,而是我想知道在哪里可以真正创建一个简单的语音识别脚本。我做了一些搜索,发现并不多,但我看到的是,有‘声音’或音节的字典,可以拼凑成文本。所以基本上我的问题是我可以从哪里开始呢?
此外,由于这有点乐观,我也可以(目前)在我的程序中使用一个库。我看到一些speech to text库和API只输出一个结果。这是可以的,但它将是不现实的。我当前的程序已经检查了输入的任何文本的语法和所有内容,因此,如果我有语音转文本软件的前十个结果,那么它可以检查每个结果,并排除任何没有意义的结果。
我有这段代码,我必须用类A(构造函数,析构函数,复制构造函数,运算符=)来写适当的代码,我的问题是,如果我想让这段代码完美地工作,我需要写智能指针吗,如果不需要,你能解释一下写智能指针在哪里有用吗,提前谢谢
A *pa1 = new A(a2);
A const * pa2 = pa1;
A const * const pa3 = pa2;
我已经建立了一个家庭自动化系统,目前正在被许多客户使用。家庭自动化系统由一个中央集线器组成,它总是连接到一个云服务器,它还控制着各种节点设备。我还开发了一个移动应用程序来远程控制家庭设备。
现在我想在我的系统中添加一个语音控制功能,我认为Amazon Alexa是我需要的完美选择,因为我的大多数客户都拥有Alexa。我将给出我想要实现的概述。
假设客户向Alexa发出语音命令,就像Alexa, turn on living room's floor light一样。收到这样的命令后,Alexa应该通过API向我的云服务器发出POST请求,参数为:Turn On, Living Room