腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
语音
识别
-
我
应该
如何
使用
模型
来
对
给定
的
音频
流
进行
分类
?
、
、
、
、
我
不是
音频
专家,但
语音
识别
是
我
真正想要探索
的
领域之一。 关于这件事,
我
一直在关注tensorflow维基。https://www.tensorflow.org/tutorials/audio/simple_audio 为了创建一个
模型
,
我
和我
的
一些朋友
使用
了
我
的
个人录音。
我
注意到该
模型</
浏览 35
提问于2021-10-05
得票数 0
2
回答
MS SpeechRecognitionEngine录制基础
音频
我
正在
使用
微软
的
System.Speech SpeechRecognitionEngine
进行
口述,
我
需要能够记录所有正在处理
的
音频
,同时
对
其执行
语音
识别
。现在,
我
可以很好地
进行
语音
识别
,并且可以获得所
识别
内容
的
音频
。但是,
我
需要能够同时保存
音频
流<
浏览 0
提问于2013-08-02
得票数 3
1
回答
基于curl
的
Google
语音
识别
流
API
、
、
我
想
使用
谷歌
的
语音
识别
API通过流媒体
的
方法,所以我
流
我
的
文件,并获得实时回文本。这是必要
的
,所以我知道什么时候说了在
音频
文件。问题是,
我
没有
使用
Google提供SDK
的
任何语言,而且他们
的
文档没有显示
如何
在没有SDK
的
情况下发出这样
的
请求。 有人知道怎么做吗?
浏览 2
提问于2017-06-08
得票数 0
回答已采纳
3
回答
基于
音频
流
Python
的
Google
流
语音
识别
、
、
、
我
搜索了Google
的
所有可用文档,但我找不到Python中
的
音频
流上
的
流式
语音
识别
示例。 目前,
我
在Django中
使用
Python
的
语音
识别
来获取用户
的
音频
,然后收听
音频
。然后,
我
可以保存该文件并运行google speech recognition,或者直接从创建
的
音频
实
浏览 13
提问于2017-05-21
得票数 10
1
回答
基于Tensorflow服务
的
双向
流
、
、
、
、
我
有一个
模型
,它接受任意长度
的
数据
流
并执行
分类
。
我
使用
Tensorflow服务
来
侦听gRPC请求,并在经过训练
的
模型
上执行
分类
。Google具有功能,在
使用
gRPC请求时可用,它“允许您将
音频
流传输到Cloud,并在处理
音频
时实时接收
语音
识别
结果
流
”。
我
相信这是可能
的
浏览 11
提问于2018-01-08
得票数 6
1
回答
谷歌
语音
识别
是
如何
工作
的
?
我
知道
音频
指纹
识别
音频
文件,这是很棒
的
,但我真正想知道
的
是Google是
如何
制作
语音
识别
API
的
,它们是
如何
获取
音频
和返回
的
单词
的
。
我
写了一个宝石
来
指纹wav
音频
文件并
对
它们
进行
比较,但是如果
我
用指纹将我
的
声音与充满指纹<
浏览 5
提问于2014-02-27
得票数 0
回答已采纳
2
回答
基于WebRTC、Node.js和
语音
识别
引擎
的
实时
语音
识别
、
、
、
A.
我
正在努力实现
的
.B.
我
目前正在考虑
使用
的
技术
来
实现A.JavaScript Web浏览器建立与节点服务器
的
连接(服务器
浏览 6
提问于2014-06-01
得票数 11
回答已采纳
1
回答
如何
在java sphinx4项目中导入和
使用
经过训练
的
声学
模型
、
、
、
我
需要帮助做一个java语言
的
程序,这是一个
语音
识别
程序
我
有一个经过训练
的
声学
模型
我
想问你,
我
如何
在
我
的
程序中
使用
这个经过训练
的
声学
模型
我
是
语音
识别
平台
的
新手,
我
想在netbeans编辑器中工作,所以请给我指令
来
测试<em
浏览 6
提问于2013-08-27
得票数 1
2
回答
从
音频
识别
数字
、
我
对
这个问题很感兴趣,有没有关于从
音频
中
识别
数字
的
研究?例如,有电话记录,你需要知道电话号码。
浏览 0
提问于2019-09-27
得票数 1
回答已采纳
2
回答
音频
文件中
的
关键字本地化
、
、
我
想要构建一个
模型
,它可以本地化
音频
文件中某个特定单词
的
出现。例如,
我
想在大约5分钟
的
录音中找到“比萨饼”这个词。程序
应该
返回一个带有(start, stop)对象
的
数组,该数组描述文件中该单词
的
开始和停止边界。
我
能不能用经典
的
对象定位和某种CNN,对象是想要
的
词在谱图?如果可以的话:
我
需要
如何
准备培训数据--用“比萨饼”这个词和同样数量<em
浏览 0
提问于2020-01-30
得票数 5
2
回答
斯威夫特
的
“声音”
识别
?
、
、
、
我
正在研究Swift中
的
一个应用程序,
我
正在考虑在
我
的
项目中获得非
语音
语音
识别
的方法。
我
的
意思是,是否有一种方法,
我
可以接受声音输入,并将它们与一些预定义
的
声音结合在项目中,如果匹配发生,它
应该
做一些特定
的
行动? 有什么办法可以做到这一点吗?
我
正在考虑打破声音和做检查,但似乎不能得到任何进一步
的
。
浏览 6
提问于2015-04-22
得票数 2
回答已采纳
3
回答
如何
设置
语音
识别
服务器?
、
、
、
如何
在服务器端实现
语音
识别
(请不要建议HTML5's x-webkit-speech,javascript等)?该程序将以一个
音频
文件作为输入,并以足够
的
准确性提供
音频
文件
的
文本转录。
我
可以选择什么?
我
尝试过实现,但是它
的
准确性太差了(它们可能也是
我
的
配置中
的
一些问题,
我
还在努力学习它)。在一篇文章中,
我
看到当我们<
浏览 6
提问于2012-01-18
得票数 1
回答已采纳
1
回答
要流式传输
的
vb.net捕获系统
音频
、
、
、
是否可以将PC播放
的
所有/任何
音频
捕获到system.io.stream中,以便随后可以通过
语音
识别
(System.Speech.Recognition.SpeechRecognitionEngine)运行 从本质上讲,
我
希望在客户端PC上
的
任何
音频
上
进行
语音
识别
,谷歌似乎建议可以
使用
Microsoft.DirectX.DirectSound
来
捕获这样
的
浏览 0
提问于2011-06-21
得票数 0
2
回答
如何
检测音乐中
的
声音/歌唱?
、
、
、
我
正在寻找一个免费
的
命令行(Linux)工具,或者一个python包,它检查
音频
文件(音乐)中
的
声音/唱歌。
我
有很多音乐作品,有些是唱歌
的
,有些是没有的。
我
正在寻找一些代码,可以分析一个音乐文件,它可以告诉
我
,在那个音乐文件中有多少唱歌,或者是否有唱歌,或者类似的事情。 欢迎提出建议。
浏览 0
提问于2021-05-07
得票数 1
回答已采纳
1
回答
如何
处理
语音
分析?
我
想分析
语音
样本,寻找
语音
-语言
的
病理。
我
能找到
的
大部分资源都是关于
语音
识别
的,这是一个完全不同
的
问题。
我
可以假设
音频
样本
的
质量总是很好,没有背景噪音。
我
想要构造一个神经网络(或者其他
的
模型
)
来
检测某些异常,但是<
浏览 0
提问于2017-10-28
得票数 3
8
回答
用于
语音
检测和
识别
的开放源代码
、
、
我
有15盘录音带,其中一盘是
我
祖母和我说话
的
旧录音。为了找到合适
的
地方,一次快速
的
尝试并没有把它打开。
我
不想听20个小时
的
磁带就能找到它。位置可能不在其中一个磁带
的
开头。大部分内容似乎分为三类--按总长度、最长第一项排列顺序:沉默、
语音
广播和音乐。
我
计划将所有磁带转换成数字格式,然后再查找录音。最明显
的
方法是在
我
做其他事情
的
时候,把它们都放进后台。这对
我
浏览 31
提问于2011-04-22
得票数 25
1
回答
YouTube
的
自动字幕比产生了更好
的
效果(
模型
:视频,UseEnhanced: true)。这怎么可能?
、
、
、
、
这里
我
的
谷歌
语音
设置给AI发短信以下是
语音
到文本AI:
的
输出文件这是视频链接:Google to Text
的
SRT (由YouTube分配
的
时间):
我
比较了一些句子,当
浏览 5
提问于2020-10-12
得票数 4
1
回答
如何
收集和准备用于
语音
识别
的数据?
、
据我所知,大多数
语音
识别
实现都依赖于二进制文件,这些文件包含他们试图“
识别
”
的
语言
的
声学
模型
。一个人可以手动抄写大量
的
演讲,但这需要大量
的
时间。即便如此,当给出一个包含某些
语音
的
音频
文件,并在文本文件中
对
其
进行
完整
的
转录时,单个单词
的
发音仍
浏览 6
提问于2015-08-03
得票数 2
回答已采纳
2
回答
高度相关数据
对
卷积神经网络
的
影响是什么?
、
、
语音
音频
样本可转换为MFCC系数以
进行
进一步分析。
我
想知道相关数据
对
CNN
的
影响。
我
知道MFCC系数
的
计算过程,利用离散余弦变换(DCT)
对
滤波器组系数
进行
去相关,得到滤波器组
的
压缩表示。当我们想进一步
使用
CNN
来
分析时,
我
想就过滤器组和MFCC
的
使用
进行
争论。 滤波器组产生高度相关
的
浏览 0
提问于2018-11-04
得票数 0
1
回答
Pocketsphinx -
音频
预处理是否必要/推荐?
、
、
、
、
我
正在
使用
pocketsphinx
进行
语音
识别
,
使用
西班牙语声学
模型
和JSGF语法,到目前为止效果还不错。然而,
我
得到了错误
的
音频
识别
结果,至少在
我
的
耳朵看来是完全可以理解
的
(没有太多
的
背景噪声,采样频率和根据声学
模型
参数
的
比特深度等)。此外,这些没有正确
识别
的
音频<
浏览 3
提问于2016-06-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
“AI孙燕姿”爆火后,Meta发布通用语音生成AI:可合成6种语言,支持多种语音功能
谷歌新研究:让失语者在视频会议中用手语自然交流!
语音领域的GPT时刻:Meta 发布“突破性”生成式语音系统,一个通用模型解决多项任务
从三大案例,看如何用 CV 模型解决非视觉问题
面对内容理解的准确性和效率问题,facebook是这样利用自我监督技术的
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券