腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(209)
视频
沙龙
1
回答
实时语音识别音源问题?
、
、
、
使用官方提供的实时语音转
文字
demo,可以通过文件流的方式识别出
音频
文件的语音并
转成
文字
。当
音频
流来源切换到前端调用麦克风实时发送数据,就无法识别出
文字
。request.setEngineModelType("16k_zh"); //模型类型为必传参数,否则异常
浏览 84
提问于2024-04-08
1
回答
使用w4a格式
音频
(Node.js)
、
、
、
我试着用将
音频
转录成
文字
脚本。我使用请求从我在消息中获得的url获取
音频
文件。但是我只能得到w4a文件,沃森只支持
音频
/wav
音频
/ogg
如何将
w4a格式的
音频
转换为wav以适应规范。
浏览 1
提问于2016-05-23
得票数 0
0
回答
向量数据库背后有哪些核心技术?打造一款向量数据库主要的门槛是什么?
、
、
、
、
要打造一款高效的向量数据库,背后涉及众多的底层技术,其中主要包括: 向量索引技术:向量索引是向量数据库的核心技术之一,它通过构建高效的索引结构来实现
快速
的向量检索。Embedding技术:利用Embedding技术将高维度的数据(例如
文字
、图片、
音频
)映射到低维度空间,即把图片、
音频
和
文字
转化为向量来表示,将这些向量存储起来就构成向量数据库。
浏览 287
提问于2023-08-14
1
回答
如何训练语音识别的lstm
、
、
、
、
我使用的是,它包含
音频
文件和它们的
文字
记录。在这一点上,我知道目标数据将被矢量化文本文本。至于训练数据,我在考虑使用每个
音频
文件(或MFCC特征)中的频率和时间。如果这是解决问题的正确方法,训练数据/
音频
将是多个数组,我
如何将
这些数组输入到我的lstm模型中?我需要对它们进行矢量化吗? 谢谢!
浏览 1
提问于2016-11-26
得票数 5
回答已采纳
1
回答
使用apple的auriotouch示例计算频率
、
、
、
我正在开发一个需要捕捉吉他声
音频
率的程序。我已经修改了aurioTouch示例,通过使用具有最高幅度的频率来输出频率。它适用于高音,但在低音弦上却非常不准确。我相信这是由于言外之意。
浏览 3
提问于2011-02-01
得票数 4
2
回答
转换从混音到线性影响
音频
质量?
、
、
、
、
我想改变
音频
编码从穆劳到线性,以便使用线性语音识别模型从谷歌。我使用的是一个电话通道,所以
音频
是用mulaw编码的,8位,8000 in。
浏览 11
提问于2022-01-03
得票数 0
1
回答
使用Youtube作为语音识别数据集
、
我需要使用一些脚本/软件,它可以自动下载YouTube视频(可能只有
音频
)和相关的字幕,然后将其分割成20秒的片段,这样就可以用作训练语音语料库。 有没有任何方式可以下载来自Youtube的字幕?给出一个
音频
和脚本,我
如何将
一个
音频
分割成20秒的片段,并在
文字
记录中做同样的剪辑?
浏览 0
提问于2018-12-21
得票数 0
7
回答
目前国内的语音识别技术达到了什么水准?还存在哪些问题?
现在技术越来越厉害了,前几年还感觉语音打字特别不靠谱,各种语音助手也相当蠢萌,想问下现在国内语音识别发展到什么水平了?
浏览 2309
提问于2018-08-06
2
回答
在if语句中使用NOT运算符时会感到困惑吗?
、
、
、
nonZeroAnswer(2, 2) {} 我一遍又一遍地阅读苹果的文档,知道Not运算符是如何工作的,以及它
如何将
布尔值反
转成
相反的值,但我不知道
如何将
它应用于更复杂的代码场景,如if语句、函数等。很抱歉,如果这看起来是一个琐碎的问题,但我已经阅读了苹果的文档,也在研究一本据说是为初学者准备的
快速
书籍,我已经看了很多youtube视频,但就是不能理解在不同的场景下使用Not操作符,而不是普通的trueValue
浏览 3
提问于2016-02-23
得票数 0
2
回答
文本到MP3程序
我正在寻找一个程序,可以
快速
地将一段
文字
转换成语音,并以MP3格式传递。(其他
音频
格式也可以。)
浏览 0
提问于2017-08-29
得票数 2
回答已采纳
1
回答
将录制的
音频
转换为数字数据
、
、
、
、
到目前为止,我已经为用户实现了使用Java Sound API将
音频
文件录制为WAVE文件的功能。我已经看到,对于
音频
相似性,可以在
音频
文件之间执行相关性,并且通过测量相关性图中是否存在高幅度峰值,可以确定
音频
文件是否相似。questions/736/how-do-i-implement-cross-correlation-to-prove-two-audio-files-are-similar中读到了下面的帖子,其中谈到了使用
快速
傅立叶变换来完成卷积(相关适用于延时
音频</e
浏览 28
提问于2021-01-10
得票数 0
回答已采纳
1
回答
基于MFCC和DTW的语音识别
、
、
、
、
基本上,我有大量的基于
文字
的数据集。每个数据都有不同的时间长度。如果我的方法是正确的,那么我
如何将
每个
音频
转换成与DTW相同的长度?因为基本上我只能比较两个MFCC数据的
音频
,当我试图更改到其他
音频
数据时,长度的结果将完全不同。
浏览 6
提问于2021-02-18
得票数 1
回答已采纳
1
回答
WP7 -数据库+斜体+字包装问题
、
、
我还想把句子
转成
单词 法线:第2部分包装到第二行 似乎没有容易的解决办法。
浏览 1
提问于2011-04-11
得票数 1
回答已采纳
1
回答
在C回调中
快速
转换UnsafeMutablePointer<Void>
、
、
、
My对象是一个自定义结构,定义为:var active: Bool = false} ...最后,初始化
音频
队列AudioQueueNewInput(&audioStreamBasicDescription, myCall
浏览 3
提问于2015-11-10
得票数 2
回答已采纳
2
回答
OSX: FFT分析AudioUnit
、
、
我对mac的FFT分析很感兴趣。我为iOS ()找到了一个教程,并尝试将它“移植”到OSX。我尝试了很多关于AudioUnit部分的修改,但是没有帮助。myView.h RIOInterface *rioRef;
浏览 1
提问于2013-09-13
得票数 0
回答已采纳
2
回答
是否有任何方法来改变来电者的声音,使声音识别不可能?
、
、
我搜索并找到了这篇文章:然而,它并没有回答我的问题。 是否有任何方法改变一个人的声音,足以使手机呼叫无法识别的语音识别技术?
浏览 0
提问于2019-08-29
得票数 2
1
回答
来自
音频
文件输入的createMediaElementSource?
、
、
我正在努力使一个网站,
快速
执行相位取消立体声
音频
。当我发现相位取消时,我觉得这太棒了,所以我想看看是否可以在网上
快速
完成,使它更有趣的。实际上,我应该使用mediaElement来操作较长音轨的
音频
,因为我们真的不应该在javascript中进行复杂的处理。 任何帮助都将不胜感激!
浏览 1
提问于2017-12-03
得票数 0
回答已采纳
2
回答
如何将
波形数据转换为复数
、
、
、
我正在尝试的两个
快速
傅立叶变换库(和)接受复数作为输入,并给出复数作为输出。更具体地说,我
如何将
从麦克风获得的原始
音频
数据转换为复数,以便在FFT中处理?
如何将
输出绘制成漂亮的频谱图(即从输出中读取频率和振幅)? 额外的好处:除了上面提到的两个库之外,还有哪些.Net的FFT库?
浏览 2
提问于2011-07-05
得票数 6
回答已采纳
5
回答
将WAV转换为客户端JavaScript中的任何压缩
音频
格式。
、
、
、
我使用getUserMedia({audio:true});在浏览器中记录
音频
,然后将其作为WAV文件导出,因为这是库提供的唯一选项。 1分20秒文件的大小为14.1MB。我需要上传
音频
到服务器,我需要
快速
完成。
如何将
WAV
音频
转换成任何其他压缩格式以降低文件大小?
浏览 20
提问于2013-07-03
得票数 34
回答已采纳
2
回答
基于FFT、PSD和STFT的
音频
特征提取及最强频率提取
、
、
、
1)假设我有使用F = fft(x)和S = spectrogram(x)获得的
快速
傅立叶变换和短时傅立叶变换系数。
如何将
这些系数用作
音频
特征?(这里使用的是模式识别意义上的
音频
特征)。
浏览 4
提问于2013-01-21
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将视频转成文字?这有视频转成文字的方法
如何将音频转文字?这些软件可以音频转文字
如何将音频转成可以直接关卡的文字?
音频转文字软件哪个好?推荐三款音频转成文字软件给你
如何将音频文件转化为文字?音频转文字的方法分享
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券