语音识别-我应该如何使用模型来对给定的音频流进行分类？

、、、、

我不是音频专家，但语音识别是我真正想要探索的领域之一。关于这件事，我一直在关注tensorflow维基。https://www.tensorflow.org/tutorials/audio/simple_audio 为了创建一个模型，我和我的一些朋友使用了我的个人录音。我注意到该模型</

浏览 35提问于2021-10-05得票数 0

2回答

MS SpeechRecognitionEngine录制基础音频

我正在使用微软的System.Speech SpeechRecognitionEngine进行口述，我需要能够记录所有正在处理的音频，同时对其执行语音识别。现在，我可以很好地进行语音识别，并且可以获得所识别内容的音频。但是，我需要能够同时保存音频流<

浏览 0提问于2013-08-02得票数 3

1回答

基于curl的Google语音识别流API

、、

我想使用谷歌的语音识别API通过流媒体的方法，所以我流我的文件，并获得实时回文本。这是必要的，所以我知道什么时候说了在音频文件。问题是，我没有使用Google提供SDK的任何语言，而且他们的文档没有显示如何在没有SDK的情况下发出这样的请求。有人知道怎么做吗？

浏览 2提问于2017-06-08得票数 0

回答已采纳

3回答

基于音频流Python的Google流语音识别

、、、

我搜索了Google的所有可用文档，但我找不到Python中的音频流上的流式语音识别示例。目前，我在Django中使用Python的语音识别来获取用户的音频，然后收听音频。然后，我可以保存该文件并运行google speech recognition，或者直接从创建的音频实

浏览 13提问于2017-05-21得票数 10

1回答

基于Tensorflow服务的双向流

、、、、

我有一个模型，它接受任意长度的数据流并执行分类。我使用Tensorflow服务来侦听gRPC请求，并在经过训练的模型上执行分类。Google具有功能，在使用gRPC请求时可用，它“允许您将音频流传输到Cloud，并在处理音频时实时接收语音识别结果流”。我相信这是可能的

浏览 11提问于2018-01-08得票数 6

1回答

谷歌语音识别是如何工作的？

我知道音频指纹识别音频文件，这是很棒的，但我真正想知道的是Google是如何制作语音识别API的，它们是如何获取音频和返回的单词的。我写了一个宝石来指纹wav音频文件并对它们进行比较，但是如果我用指纹将我的声音与充满指纹<

浏览 5提问于2014-02-27得票数 0

回答已采纳

2回答

基于WebRTC、Node.js和语音识别引擎的实时语音识别

、、、

A.我正在努力实现的.B.我目前正在考虑使用的技术来实现A.JavaScript Web浏览器建立与节点服务器的连接(服务器

浏览 6提问于2014-06-01得票数 11

回答已采纳

1回答

如何在java sphinx4项目中导入和使用经过训练的声学模型

、、、

我需要帮助做一个java语言的程序，这是一个语音识别程序我有一个经过训练的声学模型我想问你，我如何在我的程序中使用这个经过训练的声学模型我是语音识别平台的新手，我想在netbeans编辑器中工作，所以请给我指令来测试<em

浏览 6提问于2013-08-27得票数 1

2回答

从音频识别数字

、

我对这个问题很感兴趣，有没有关于从音频中识别数字的研究？例如，有电话记录，你需要知道电话号码。

浏览 0提问于2019-09-27得票数 1

回答已采纳

2回答

音频文件中的关键字本地化

、、

我想要构建一个模型，它可以本地化音频文件中某个特定单词的出现。例如，我想在大约5分钟的录音中找到“比萨饼”这个词。程序应该返回一个带有(start, stop)对象的数组，该数组描述文件中该单词的开始和停止边界。我能不能用经典的对象定位和某种CNN，对象是想要的词在谱图？如果可以的话:我需要如何准备培训数据--用“比萨饼”这个词和同样数量<em

浏览 0提问于2020-01-30得票数 5

2回答

斯威夫特的“声音”识别？

、、、

我正在研究Swift中的一个应用程序，我正在考虑在我的项目中获得非语音语音识别的方法。我的意思是，是否有一种方法，我可以接受声音输入，并将它们与一些预定义的声音结合在项目中，如果匹配发生，它应该做一些特定的行动？有什么办法可以做到这一点吗？我正在考虑打破声音和做检查，但似乎不能得到任何进一步的。

浏览 6提问于2015-04-22得票数 2

回答已采纳

3回答

如何设置语音识别服务器？

、、、

如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech，javascript等)？该程序将以一个音频文件作为输入，并以足够的准确性提供音频文件的文本转录。我可以选择什么？我尝试过实现，但是它的准确性太差了(它们可能也是我的配置中的一些问题，我还在努力学习它)。在一篇文章中，我看到当我们<

浏览 6提问于2012-01-18得票数 1

回答已采纳

1回答

要流式传输的vb.net捕获系统音频

、、、

是否可以将PC播放的所有/任何音频捕获到system.io.stream中，以便随后可以通过语音识别(System.Speech.Recognition.SpeechRecognitionEngine)运行从本质上讲，我希望在客户端PC上的任何音频上进行语音识别，谷歌似乎建议可以使用Microsoft.DirectX.DirectSound来捕获这样的

浏览 0提问于2011-06-21得票数 0

2回答

如何检测音乐中的声音/歌唱？

、、、

我正在寻找一个免费的命令行(Linux)工具，或者一个python包，它检查音频文件(音乐)中的声音/唱歌。我有很多音乐作品，有些是唱歌的，有些是没有的。我正在寻找一些代码，可以分析一个音乐文件，它可以告诉我，在那个音乐文件中有多少唱歌，或者是否有唱歌，或者类似的事情。欢迎提出建议。

浏览 0提问于2021-05-07得票数 1

回答已采纳

1回答

如何处理语音分析？

我想分析语音样本，寻找语音-语言的病理。我能找到的大部分资源都是关于语音识别的，这是一个完全不同的问题。我可以假设音频样本的质量总是很好，没有背景噪音。我想要构造一个神经网络(或者其他的模型)来检测某些异常，但是<

浏览 0提问于2017-10-28得票数 3

8回答

用于语音检测和识别的开放源代码

、、

我有15盘录音带，其中一盘是我祖母和我说话的旧录音。为了找到合适的地方，一次快速的尝试并没有把它打开。我不想听20个小时的磁带就能找到它。位置可能不在其中一个磁带的开头。大部分内容似乎分为三类--按总长度、最长第一项排列顺序:沉默、语音广播和音乐。我计划将所有磁带转换成数字格式，然后再查找录音。最明显的方法是在我做其他事情的时候，把它们都放进后台。这对我

浏览 31提问于2011-04-22得票数 25

1回答

YouTube的自动字幕比产生了更好的效果(模型:视频，UseEnhanced: true)。这怎么可能？

、、、、

这里我的谷歌语音设置给AI发短信以下是语音到文本AI：的输出文件这是视频链接：Google to Text的SRT (由YouTube分配的时间)：我比较了一些句子，当

浏览 5提问于2020-10-12得票数 4

1回答

如何收集和准备用于语音识别的数据？

、

据我所知，大多数语音识别实现都依赖于二进制文件，这些文件包含他们试图“识别”的语言的声学模型。一个人可以手动抄写大量的演讲，但这需要大量的时间。即便如此，当给出一个包含某些语音的音频文件，并在文本文件中对其进行完整的转录时，单个单词的发音仍

浏览 6提问于2015-08-03得票数 2

回答已采纳

2回答

高度相关数据对卷积神经网络的影响是什么？

、、

语音音频样本可转换为MFCC系数以进行进一步分析。我想知道相关数据对CNN的影响。我知道MFCC系数的计算过程，利用离散余弦变换(DCT)对滤波器组系数进行去相关，得到滤波器组的压缩表示。当我们想进一步使用CNN来分析时，我想就过滤器组和MFCC的使用进行争论。滤波器组产生高度相关的

浏览 0提问于2018-11-04得票数 0

1回答

Pocketsphinx -音频预处理是否必要/推荐？

、、、、

我正在使用pocketsphinx进行语音识别，使用西班牙语声学模型和JSGF语法，到目前为止效果还不错。然而，我得到了错误的音频识别结果，至少在我的耳朵看来是完全可以理解的(没有太多的背景噪声，采样频率和根据声学模型参数的比特深度等)。此外，这些没有正确识别的音频<

浏览 3提问于2016-06-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

MS SpeechRecognitionEngine录制基础音频

基于curl的Google语音识别流API

基于音频流Python的Google流语音识别

基于Tensorflow服务的双向流

谷歌语音识别是如何工作的？

基于WebRTC、Node.js和语音识别引擎的实时语音识别

如何在java sphinx4项目中导入和使用经过训练的声学模型

从音频识别数字

音频文件中的关键字本地化

斯威夫特的“声音”识别？

如何设置语音识别服务器？

要流式传输的vb.net捕获系统音频

如何检测音乐中的声音/歌唱？

如何处理语音分析？

用于语音检测和识别的开放源代码

YouTube的自动字幕比产生了更好的效果(模型:视频，UseEnhanced: true)。这怎么可能？

如何收集和准备用于语音识别的数据？

高度相关数据对卷积神经网络的影响是什么？

Pocketsphinx -音频预处理是否必要/推荐？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐