双十一实时语音识别哪家好_双12实时语音识别哪家好_双11实时语音识别哪家好 - 腾讯云开发者社区

、

我正在开发一个实时翻译的Python应用程序。我需要实时识别语音:当用户说什么时，它会自动将这段音频发送到Google speech API并返回文本。因此，我希望在说话时立即显示识别出的文本。我已经找到了流式语音识别，但似乎我仍然需要先录制完整的语音，然后再将其发送到服务器。此外，也没有如何在Python中使用它的示例有没有可能用Google Speech API做到这一点？

浏览 7提问于2017-05-19得票数 0

3回答

人脸、情感和语音识别

、、、

我正在寻找一种好的C#的人脸、情感和语音识别方法。对于人脸识别，我很早就使用了Emgu CV，它不准确，在弱光条件下性能非常低。我还需要找到用户的情绪。无论是悲伤还是快乐。另外，对于语音识别，我还找不到任何解决方案，我找到了语音识别，但它不是我需要的。我不想使用任何在线API。有没有人能推荐我一些SDK或算法，用来实现人脸、情感和语音识别？

浏览 4提问于2012-06-13得票数 6

回答已采纳

2回答

我们有来自我们的服务器端进程之一的实时、不加控制的记录的各种波形文件，而且它们中的大多数在整个过程中都有很好的清晰的语音。然而，有时他们是混乱的，他们有静态，或说话音量不够大。我曾想过要把已知的好唱片的平面图和不好的录音进行比较，但是每次录音都会有不同的语言，所以这可能行不通。我研究过像Bass.Net和NAudio这样的库，但是音频处理不是我的专业领域。我的另一个想法是使用某种语音识别API来尝试处理语音并将音频记录写到文本文件中。问题是，语音识别并

浏览 6提问于2013-08-14得票数 0

回答已采纳

1回答

使用Skype调用的MemoryStream在C#中使用SAPI5.4或MS Speech SDK v11进行语音识别

、、、

我正在尝试让SAPI5.4(也是MS Speech Platform Skype )对来自v11呼叫的音频执行连续语音识别。文件运行正常，但我想让它实时运行recognition，所以使用TCP套接字。我尝试将原始音频保存到磁盘，然后将其读取到SAPI中，它工作得很好…所以数据本身是好的，Skype在音频上的发送是正确的。然而，这并不能让我做我需要的持续

浏览 2提问于2012-09-10得票数 5

5回答

开源音频模式识别(指纹识别)

、、

有没有开源的音频指纹识别解决方案可以提供“类似Shazam”的解决方案？使用的商业解决方案，但我正在寻找替代方案(即使在准确性和性能方面较差)的开源解决方案。

浏览 0提问于2011-06-08得票数 28

回答已采纳

8回答

腾讯刚刚发布的听听音箱运用了哪些人工智能技术及优势何在？

4.20号腾讯推出了第一款人工智能硬件产品——听听音箱，其开创了腾讯在AI工程方面的一次重要探索，那么听听音箱运用了哪些人工智能技术还有相比目前市场上的智能音箱体现了哪些优势呢？

浏览 1232提问于2018-04-25

2回答

在播放音乐时记录声音.过滤器扬声器输入(iOS)

、、

我正在开发一个卡拉OK应用程序，你可以在听音乐的同时录制你的声音。当用户使用耳机时，一切都很棒--他可以一边唱歌一边听着耳机里的音乐和他自己。然后我们录下他纯正的声音，我们可以把它和回放混为一谈。当用户不使用耳机时会出现问题。然后我们通过扬声器AVAudioSessionCategoryPlayAndRecord和录音同时播放音乐。在最后的录音中，我们将用户的声音和扬声器的回放混合在一起。问题是回放的音量很大，而且是“覆盖”用户的声音。首先，我认为这是正常的行为，因为演讲者离microphone很近，所以我无能为力。然而，当我在车库乐队上尝试同样的东西时，它以某种方式降低了扬声器的回放，使声音

浏览 4提问于2018-09-21得票数 3

2回答

利用wavin库获取在C++中捕获的音频信号的幅度(或均方根电压)。

、、

我正在从事一个非常基本的机器人项目，并希望在其中实现语音识别。我知道这是一个复杂的事情，但我希望只有3到4个命令(或单词)。我知道使用wavin我可以录制音频。但我希望对音频信号进行实时幅度分析，这怎么能做到，波形将作为8位，单声道输入。谢谢，提前说好。

浏览 0提问于2011-04-03得票数 2

回答已采纳

3回答

Android上的实时呼叫转录

、、

我是一名Android开发人员，患有听力障碍，目前我正在探索在Android中使用speech Recognizer API制作语音转文本应用程序的选项。该API用于捕获语音命令，而不是用于实时实时转录。我甚至可以将它作为一个服务来实现，但在它交付了一个结果或部分结果后，我需要不断地重新启动它，这在会话设置中是不可行的(服务重新启动时会丢失单词)。有没有办法在连续模式下实现语音识别器？我可以创建一个文本视图，当服务返回新文本时，它会不断更新。如果这个API不是我应该看的，有什么建议吗？

浏览 4提问于2014-09-12得票数 5

2回答

音频字幕转录- C++

、、、

我正在做一个项目，在其他与视频相关的任务中，最终应该能够提取视频的音频，并对其应用某种语音识别，并获得视频上所说内容的转录文本。理想情况下，它应该输出某种字幕格式，以便文本链接到视频上的某个点。我为语音识别找到的极少数示例(大多数是用于文本到语音的转换，这可能更容易)表现不是很好(他们不能识别任何东西)。例如这个：一些例子使用了一些叫做语法文件的东西来定义识别器正在等待的单词，但是由于我没有对Windows语音识别进行过彻底的训练，

浏览 0提问于2011-08-28得票数 1

1回答

Amazon在通话过程中通过反馈转录/Lex

、、、

我是AWS服务中的一个新成员，我们想要构建一个简单的演示，来检测一个特殊的单词和:1触发一个动作，2个响应(作为调用期间的语音)。所以问题是：更清楚的是:与两个人的交流将是实时的，当有人说“帮助”时，我想插话，例如，我想在谈话中添加一个机器人声音，然后说"OK“。救命..。机器人:好的(就像电话会议中的第三个人)。

浏览 0提问于2020-01-12得票数 4

回答已采纳

4回答

语音识别:自由软件与完全隐私

、、、

免费-最好是开放源码我做了一个快速搜索，并遇到了这个Python库：语音识别。

浏览 0提问于2020-05-17得票数 3

回答已采纳

4回答

iOS / C:音素检测算法

、、、、

我正在寻找一种算法，以确定实时音频输入是否与144个给定(和舒适地不同)音素对中的一个匹配。我正在为iPhone / iPad开发激进/实验性的音乐训练软件。我觉得使用全功能的连续语音识别器是在用大锤敲坚果。使用能解决问题的最低限度的技术要优雅得多。另外，我需要一个解决方案，运行几乎实时。

浏览 5提问于2011-06-17得票数 18

2回答

将AVAudioPcmBuffer音频数据作为float[]读入C# Xamarin.iOS中

、、

下面是上述方法中的QuickWatch on data，在Marshal.Copy操作之后：我本打算使用float[]值来创建VU计量器，但在实时监视时，随着麦克风的输入，这些值似乎没有明显的变化AVAudioPcmBuffer包含有效的音频数据，因为我是通过Append(AVAudioPcmBuffer audioPcmBuffer)发送给SFSpeechAudioBufferRecognitionRequest的，而且语音识别工作非常好

浏览 1提问于2019-04-17得票数 0

1回答

无法从挂载驱动器将音频文件导入audacity中

、、、

最近，我开始在我的Windows 10机器上进行Ubuntu18.04双引导的实验，希望最终能建立一个完整的linux平台。我在很多音响项目上工作，所以拥有好的音响设备对我来说很重要。如果我尝试将音频文件拖放到Audacity中，就像在Windows中通常所做的那样，我会收到这样的消息："Audacity没有识别文件‘/mnt/D488FFDD88FFBBD 4/语音代理/已完成项目然而，当我移动或复制文件到我的主分区(在Ubuntu桌面或一个主文件夹，例如音乐或文档)，它

浏览 0提问于2020-03-17得票数 4

2回答

pocketsphinx不能有效地识别通过麦克风记录的单词(命令)

、、、、

我在我的debian 9系统上编写了这个语音识别库的C代码。我在一个名为goforward.raw的文件中记录了一个示例音频，该文件中有一个命令：“前进”。pockesphinx_continuous程序既不能有效地识别使用linux上的arecord工具通过耳机记录的单词，也不识别给出的示例代码。只需部分识别，即将“前进”命令识别为“前进”，这是可以的，但其他命令识别得很差。如果你说你好，就会变成你是谁。？有趣的是，使用文本到语音工具pico2wa

浏览 4提问于2017-11-27得票数 3

2回答

自认证抗篡改第一次会议

、、、

我不知道我要找的确切词是什么，所以如果有更好的表达方式，我很抱歉。我想的是如何转移身份，使其具有抗篡改能力，并可用于身份验证。如果您通过不安全的网络发送公钥，则在使用Diffie-Hellman密钥交换等情况下，它有被修改的机会。你的通讯是安全的，但没有经过认证。解决这一问题的方法之一是PGP，一个信任网络，在看到你的照片后，人们会签下你的钥匙，或者通过做你的朋友来认识你。他们通过看

浏览 0提问于2013-10-07得票数 3

7回答

自动生成字幕/关闭字幕从视频使用语音到文字？

是否有一个程序可以执行基本的语音到文本以便创建基本的文本字幕(使用某种语音到文本) 我知道gnome-字幕的事。然而，手工创建这些字幕需要付出大量的努力。YouTube具有上述功能(使用语音到文本在正确的时间创建基本的文本字幕)。然而，我宁愿不上传视频到YouTube仅仅是为了得到我的字幕。有可能在Ubuntu上高效地制作字幕吗？更新2:有用于Linux的语音到文本软件，以及CMU Sphinx包。根据这个职位，使用CMU狮身人面像和字幕程序是可能的。任务继续找到一个程序，它使用C

浏览 0提问于2011-01-31得票数 20

回答已采纳

1回答

JavaScript音频分析语音学

、、、、

问题是，在加载音频数据之后，我有一个大约1024长的Uint8Array数据点，代表波长(每帧)，我如何猜出这是什么声音(来自所提到的语音的选择，即：丽莎A 闭上嘴表示“P”、“B”和“M”的声音我知道有很多机器学习选项，比如、和，但是我想要一个算法来实时地检测到上面的语音。它不需要100%的准确性，只是稍微好于随机选择某些值的口腔.在这一点上，任何比随机更好的东西都可以。我知道音频识别可以用来完成，这是在中使用的，但是我想要的只是一个非常简单的算法，给出每帧一个波长的1024个数据阵列，如何获得语音</e

浏览 2提问于2020-05-31得票数 4

8回答

深度学习在腾讯云上有哪些应用？

腾讯云有哪些相关产品呢？我想使用深度学习做一些事情，但是对我这种小白来说可能有点难，有没有相关的应用场景参考下，有教程的话最好！

浏览 1796提问于2018-09-07

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Google Cloud Speech API实时识别

人脸、情感和语音识别

一种有效的录音质量检测方法

使用Skype调用的MemoryStream在C#中使用SAPI5.4或MS Speech SDK v11进行语音识别

开源音频模式识别(指纹识别)

腾讯刚刚发布的听听音箱运用了哪些人工智能技术及优势何在？

在播放音乐时记录声音.过滤器扬声器输入(iOS)

利用wavin库获取在C++中捕获的音频信号的幅度(或均方根电压)。

Android上的实时呼叫转录

音频字幕转录- C++

Amazon在通话过程中通过反馈转录/Lex

语音识别:自由软件与完全隐私

iOS / C:音素检测算法

将AVAudioPcmBuffer音频数据作为float[]读入C# Xamarin.iOS中

无法从挂载驱动器将音频文件导入audacity中

pocketsphinx不能有效地识别通过麦克风记录的单词(命令)

自认证抗篡改第一次会议

自动生成字幕/关闭字幕从视频使用语音到文字？

JavaScript音频分析语音学

深度学习在腾讯云上有哪些应用？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐