腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
音频文件
读取
数据
时
出现
语音
识别
错误
、
as source: print(r.recognize_google(source)) 我得到了这个
错误
浏览 55
提问于2021-07-16
得票数 0
1
回答
Google
语音
到文本引擎返回RESOURCE_EXHAUSTED
、
、
、
、
我们已经建立了Google
语音
到文本的服务,我们服务器的所有实例都使用相同的Google云帐户来进行
语音
到文本服务。然而,其中一个实例是,每当RESOURCE_EXHAUSTED尝试激活
语音
到文本服务
时
,它都会不断地得到回复“:资源已经耗尽(例如,检查配额)”。无论如何,我没有找到为什么这个实例无法激活
语音
到文本服务的原因(其他服务器实例工作得很好),我也没有在Google服务中找到显示我设置的
语音
到文本服务访问失败的日志。
浏览 11
提问于2022-05-11
得票数 0
1
回答
YouTube的自动字幕比产生了更好的效果(模型:视频,UseEnhanced: true)。这怎么可能?
、
、
、
、
这里我的谷歌
语音
设置给AI发短信以下是
语音
到文本AI:的输出文件这是视频链接: 这是提供给Google:的视频的
音频文件
。
浏览 5
提问于2020-10-12
得票数 4
1
回答
使用音频代替麦克风对Julius进行
语音
识别
、
我需要测试一些音频的
语音
到文本的转换。此外,还可以模拟音频上的噪声。 有没有人知道这样的软件?有人和朱利叶斯共事过吗?对这个库有什么评论吗?
浏览 1
提问于2009-09-09
得票数 2
1
回答
谷歌
语音
识别
是如何工作的?
我知道音频指纹
识别
音频文件
,这是很棒的,但我真正想知道的是Google是如何制作
语音
识别
API的,它们是如何获取音频和返回的单词的。我写了一个宝石来指纹wav
音频文件
并对它们进行比较,但是如果我用指纹将我的声音与充满指纹的
数据
库进行比较,可能要花费很长时间。谷歌是怎么做到的?用途: 我真的很喜欢
语音
识别
,我想要一个地方开始编码,但我不知道
从
哪里开始。DragonVoice是
语音
识别
软件的另一个例子,
浏览 5
提问于2014-02-27
得票数 0
回答已采纳
1
回答
如何收集和准备用于
语音
识别
的
数据
?
、
据我所知,大多数
语音
识别
实现都依赖于二进制文件,这些文件包含他们试图“
识别
”的语言的声学模型。一个人可以手动抄写大量的演讲,但这需要大量的时间。即便如此,当给出一个包含某些
语音
的
音频文件
,并在文本文件中对其进行完整的转录
时
,单个单词的发音仍然需要以某种方式分开。要匹配音频的哪一部分对应于文本,仍然需要
语音
识别
。 这是怎么收集起来的?如果一个人交出了价值数千小
时
的
音频文件
及其全部转录
浏览 6
提问于2015-08-03
得票数 2
回答已采纳
2
回答
是否可以用
语音
识别
来
识别
手机用户?
、
我的一位朋友声称,只需使用
语音
识别
就可以
识别
每个匿名电话(预付费、skype等)。然而,我到目前为止读到的科学文献是模棱两可的,也就是说,如果你将声音
识别
应用于有限数量的个体,你可以可靠地
识别
出谁是谁。然而,如果这个数字达到一定的极限,这就不可能了。所以问题是:使用所有网络参与者的
语音
识别
来进行用户
识别
是真的可能的,还是我的朋友只是偏执?
浏览 0
提问于2018-05-13
得票数 4
回答已采纳
1
回答
同样的入参(文件格式除外)调用
语音
识别
接口WAV格式正常
识别
, aac文件报错code4007?
如题, 同样的入参 (文件格式除外) 调用
语音
识别
接口WAV格式正常
识别
, aac文件报错code4007
浏览 193
提问于2022-01-11
1
回答
如何使用google convert将
语音
转换为基于印度口音的文本
、
、
、
、
我正在尝试使用google could APIs转换
语音
到文本,像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US当我试图转换印度口音
时
,这个文本完全
错误
,我尝试过en-in,但没有用。 我如何转换?:这里我上传(.wav)
音频文件
,并转换为文本。
浏览 11
提问于2021-07-09
得票数 0
1
回答
节点和控制台输出到命令行而不是浏览器
、
、
它使用快速框架,并将抄录的音频
从
麦克风打印到网页和浏览器控制台的文本框中。我看到的其他使用express的例子已经输出到命令行控制台。
浏览 5
提问于2016-05-10
得票数 1
回答已采纳
1
回答
在Python中将
语音
转换为文本
时
出错
、
、
、
、
我试图使用
语音
识别
库将
语音
转换为文本。但是当我运行代码
时
,它显示了有关音频类型的值
错误
,我试图将文件格式更改为许多音频格式,例如:"PCM、WAV、AIFF、AIFF-C、Mp3、Mp4、FLAC、WebM、wav.但是,它仍然显示出同样的
错误
。
错误
: import speech_
浏览 0
提问于2021-04-30
得票数 2
回答已采纳
1
回答
在
音频文件
中查找音频剪辑
、
我经常
从
大的
音频文件
中剪辑音频片段,这些文件通常有30到60分钟长。有数百个,可能是数千个这些
音频文件
。通常情况下,一切都很好,但有时我想回去重新听听我摘录的内容背后的一些背景。最近,我在摘录中加入了文件名以供参考,但我想知道是否有任何方法可以搜索
音频文件
。
从
字面上讲,这不是大多数关于这个话题的结果所提出的“
语音
识别
搜索”。我有实际的,准确的原始音频,如果我可以让脚本扫描文件夹中的所有
音频文件
,看看剪裁后的
音频文件
是否
出现</
浏览 0
提问于2020-12-14
得票数 2
3
回答
用于
语音
转文本(
语音
识别
) iphone的API或SDK
、
、
、
、
嗨,我想有一个
语音
识别
api或sdk,它可以
识别
用户说的
语音
,并给出它的文本形式。在我的应用程序中,我需要播放一个
音频文件
,它的文本已经存在。当音频开始播放
时
,应突出显示所说的单词(来自
音频文件
)。除此之外,我在谷歌上搜索了很多api,我偶然发现了,但它不是免费试用的。
浏览 2
提问于2010-11-11
得票数 4
回答已采纳
1
回答
有没有办法通过google cloud speech logging添加业务特定的元
数据
,与存储在google cloud上的
音频文件
一起存储?
、
、
我们正在与谷歌云
语音
集成
语音
到文本转换启用日志。当记录
音频文件
时
,我们还需要存储与
音频文件
一起存储的附加标识符,以便稍后当我们
从
google云检索
音频文件
时
,我们可以执行实体到
音频文件
的关联。我们可以将用户提供的元
数据
与
音频文件
一起存储吗?我们要流式传输音频
数据
进行转换,我们需要存储
音频文件
+一些由我们提供的元
数据
。
浏览 24
提问于2018-12-20
得票数 1
3
回答
在Mac OS X Mavericks中是否有API (或任何黑客)来访问增强的听写?
、
、
、
、
我正在尝试找到一种简单的方法将
音频文件
转录为文本(CMU Sphinx、Julius等对于不了解
语音
识别
、配置语言模型、声学模型等的人来说是困难的)。我想知道是否有办法将我的
音频文件
传输到MacOS10.9Mavericks的“增强听写”功能中,该功能允许本地和离线
语音
听写。当我把接插线
从
耳机插孔插入线路
时
,我认为我是聪明的,但不幸的是,当你开始口述
时
,它会使所有其他音频播放静音(任何关于如何禁用静音的建议都会得到我的正确答案)。
浏览 5
提问于2013-10-25
得票数 5
1
回答
离线
语音
识别
回调为何没
数据
? 改如果取回调参数?
、
请问,离线
语音
识别
的回调参数都有哪些? 我
音频文件
请求过去,返回是成功的,回调地址也被调用了4次,但是读不出任何
数据
。直接
从
request里面读流都是空的,啥文本信息都没。 请问这个是什么原因?
浏览 285
提问于2019-06-27
2
回答
用于音频的卷积神经网络
、
、
、
、
我想扩展相同的CNN,同时
从
视频(图像+音频)中提取多模态特征。编辑:我发现音频可以用光谱图来表示。
浏览 3
提问于2014-03-18
得票数 34
回答已采纳
5
回答
C#:使用System.Speech名称空间将WAV文件转录为文本(
语音
到文本)
、
、
但当我尝试它
时
,它给出了不正确的结果。下面是我采用的vb代码示例。(实际上,我不介意lang,只要它是vb/c#...)。它没有给我适当的结果。对于一个6分钟的文件,它可能会给出5-6个与
语音
文件完全无关的文本。
浏览 3
提问于2009-11-20
得票数 8
回答已采纳
8
回答
用于
语音
检测和
识别
的开放源代码
、
、
大部分内容似乎分为三类--按总长度、最长第一项排列顺序:沉默、
语音
广播和音乐。 我计划将所有磁带转换成数字格式,然后再查找录音。最明显的方法是在我做其他事情的时候,把它们都放进后台。
浏览 31
提问于2011-04-22
得票数 25
1
回答
如何在Qt中使用来自麦克风的流音频
数据
进行ASR
、
、
我正在做一个
语音
识别
项目,我的程序可以
识别
音频文件
中的单词。现在我需要处理来自麦克风的音频流。我使用QAudio
从
麦克风中获取声音
数据
,而QAudio有一个函数来启动这个过程。此start(* QBuffer)函数将
数据
写入QBuffer(
从
QByteArray继承)对象。当我不处理连续流
时
,我可以随时停止
从
麦克风录制,并将整个
数据
从
QBuffer复制到QByteArray中,然后
浏览 1
提问于2013-09-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【公开数据集】WenetSpeech:10000小时的中文语音识别数据集
移动电脑硬盘出现问题无法读取时,如何保持原始状态才能提高数据恢复机率
腾讯AI同传亮相博鳌,你该开始python语音识别啦!
Python神技之利用百度AI声控电脑关机
MP3如何文件转文字?学会这一招一劳永逸!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券