腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(63)
视频
沙龙
3
回答
Google Cloud Speech API
实时
识别
、
我正在开发一个
实时
翻译的Python应用程序。我需要
实时
识别
语音
:当用户说什么时,它会自动将这段音频发送到Google speech API并返回文本。因此,我希望在说话时立即显示
识别
出的文本。我已经找到了流式
语音
识别
,但似乎我仍然需要先录制完整的
语音
,然后再将其发送到服务器。此外,也没有如何在Python中使用它的示例 有没有可能用Google Speech API做到这一点?
浏览 7
提问于2017-05-19
得票数 0
3
回答
人脸、情感和
语音
识别
、
、
、
我正在寻找一种
好
的C#的人脸、情感和
语音
识别
方法。对于人脸
识别
,我很早就使用了Emgu CV,它不准确,在弱光条件下性能非常低。我还需要找到用户的情绪。无论是悲伤还是快乐。另外,对于
语音
识别
,我还找不到任何解决方案,我找到了
语音
识别
,但它不是我需要的。 我不想使用任何在线API。有没有人能推荐我一些SDK或算法,用来实现人脸、情感和
语音
识别
?
浏览 4
提问于2012-06-13
得票数 6
回答已采纳
2
回答
一种有效的录音质量检测方法
、
、
我们有来自我们的服务器端进程之一的
实时
、不加控制的记录的各种波形文件,而且它们中的大多数在整个过程中都有很好的清晰的
语音
。然而,有时他们是混乱的,他们有静态,或说话音量不够大。我曾想过要把已知的
好
唱片的平面图和不好的录音进行比较,但是每次录音都会有不同的语言,所以这可能行不通。我研究过像Bass.Net和NAudio这样的库,但是音频处理不是我的专业领域。我的另一个想法是使用某种
语音
识别
API来尝试处理
语音
并将音频记录写到文本文件中。问题是,
语音
识别
并
浏览 6
提问于2013-08-14
得票数 0
回答已采纳
1
回答
使用Skype调用的MemoryStream在C#中使用SAPI5.4或MS Speech SDK v11进行
语音
识别
、
、
、
我正在尝试让SAPI5.4(也是MS Speech Platform Skype )对来自v11呼叫的音频执行连续
语音
识别
。文件运行正常,但我想让它
实时
运行recognition,所以使用TCP套接字。我尝试将原始音频保存到磁盘,然后将其读取到SAPI中,它工作得很好…所以数据本身是
好
的,Skype在音频上的发送是正确的。然而,这并不能让我做我需要的持续
浏览 2
提问于2012-09-10
得票数 5
5
回答
开源音频模式
识别
(指纹
识别
)
、
、
有没有开源的音频指纹
识别
解决方案可以提供“类似Shazam”的解决方案? 使用的商业解决方案,但我正在寻找替代方案(即使在准确性和性能方面较差)的开源解决方案。
浏览 0
提问于2011-06-08
得票数 28
回答已采纳
8
回答
腾讯刚刚发布的听听音箱运用了哪些人工智能技术及优势何在?
4.20号腾讯推出了第一款人工智能硬件产品——听听音箱,其开创了腾讯在AI工程方面的一次重要探索,那么听听音箱运用了哪些人工智能技术还有相比目前市场上的智能音箱体现了哪些优势呢?
浏览 1232
提问于2018-04-25
2
回答
在播放音乐时记录声音.过滤器扬声器输入(iOS)
、
、
我正在开发一个卡拉OK应用程序,你可以在听音乐的同时录制你的声音。当用户使用耳机时,一切都很棒--他可以一边唱歌一边听着耳机里的音乐和他自己。然后我们录下他纯正的声音,我们可以把它和回放混为一谈。当用户不使用耳机时会出现问题。然后我们通过扬声器AVAudioSessionCategoryPlayAndRecord和录音同时播放音乐。在最后的录音中,我们将用户的声音和扬声器的回放混合在一起。问题是回放的音量很大,而且是“覆盖”用户的声音。首先,我认为这是正常的行为,因为演讲者离microphone很近,所以我无能为力。然而,当我在车库乐队上尝试同样的东西时,它以某种方式降低了扬声器的回放,使声音
浏览 4
提问于2018-09-21
得票数 3
2
回答
利用wavin库获取在C++中捕获的音频信号的幅度(或均方根电压)。
、
、
我正在从事一个非常基本的机器人项目,并希望在其中实现
语音
识别
。我知道这是一个复杂的事情,但我希望只有3到4个命令(或单词)。 我知道使用wavin我可以录制音频。但我希望对音频信号进行
实时
幅度分析,这怎么能做到,波形将作为8位,单声道输入。谢谢,提前说
好
。
浏览 0
提问于2011-04-03
得票数 2
回答已采纳
3
回答
Android上的
实时
呼叫转录
、
、
我是一名Android开发人员,患有听力障碍,目前我正在探索在Android中使用speech Recognizer API制作
语音
转文本应用程序的选项。该API用于捕获
语音
命令,而不是用于
实时
实时
转录。我甚至可以将它作为一个服务来实现,但在它交付了一个结果或部分结果后,我需要不断地重新启动它,这在会话设置中是不可行的(服务重新启动时会丢失单词)。有没有办法在连续模式下实现
语音
识别
器?我可以创建一个文本视图,当服务返回新文本时,它会不断更新。如果这个API不是我应该看的,有什么建议吗?
浏览 4
提问于2014-09-12
得票数 5
2
回答
音频字幕转录- C++
、
、
、
我正在做一个项目,在其他与视频相关的任务中,最终应该能够提取视频的音频,并对其应用某种
语音
识别
,并获得视频上所说内容的转录文本。理想情况下,它应该输出某种字幕格式,以便文本链接到视频上的某个点。我为
语音
识别
找到的极少数示例(大多数是用于文本到
语音
的转换,这可能更容易)表现不是很好(他们不能
识别
任何东西)。例如这个: 一些例子使用了一些叫做语法文件的东西来定义
识别
器正在等待的单词,但是由于我没有对Windows
语音
识别
进行过彻底的训练,
浏览 0
提问于2011-08-28
得票数 1
1
回答
Amazon在通话过程中通过反馈转录/Lex
、
、
、
我是AWS服务中的一个新成员,我们想要构建一个简单的演示,来检测一个特殊的单词和:1触发一个动作,2个响应(作为调用期间的
语音
)。所以问题是: 更清楚的是:与两个人的交流将是
实时
的,当有人说“帮助”时,我想插话,例如,我想在谈话中添加一个机器人声音,然后说"OK“。 救命..。机器人:
好
的(就像电话会议中的第三个人)。
浏览 0
提问于2020-01-12
得票数 4
回答已采纳
4
回答
语音
识别
:自由软件与完全隐私
、
、
、
免费-最好是开放源码我做了一个快速搜索,并遇到了这个Python库:
语音
识别
。
浏览 0
提问于2020-05-17
得票数 3
回答已采纳
4
回答
iOS / C:音素检测算法
、
、
、
、
我正在寻找一种算法,以确定
实时
音频输入是否与144个给定(和舒适地不同)音素对中的一个匹配。我正在为iPhone / iPad开发激进/实验性的音乐训练软件。我觉得使用全功能的连续
语音
识别
器是在用大锤敲坚果。使用能解决问题的最低限度的技术要优雅得多。另外,我需要一个解决方案,运行几乎
实时
。
浏览 5
提问于2011-06-17
得票数 18
2
回答
将AVAudioPcmBuffer音频数据作为float[]读入C# Xamarin.iOS中
、
、
下面是上述方法中的QuickWatch on data,在Marshal.Copy操作之后:我本打算使用float[]值来创建VU计量器,但在
实时
监视时,随着麦克风的输入,这些值似乎没有明显的变化AVAudioPcmBuffer包含有效的音频数据,因为我是通过Append(AVAudioPcmBuffer audioPcmBuffer)发送给SFSpeechAudioBufferRecognitionRequest的,而且
语音
识别
工作非常
好
浏览 1
提问于2019-04-17
得票数 0
1
回答
无法从挂载驱动器将音频文件导入audacity中
、
、
、
最近,我开始在我的Windows 10机器上进行Ubuntu18.04
双
引导的实验,希望最终能建立一个完整的linux平台。我在很多音响项目上工作,所以拥有
好
的音响设备对我来说很重要。如果我尝试将音频文件拖放到Audacity中,就像在Windows中通常所做的那样,我会收到这样的消息:"Audacity没有
识别
文件‘/mnt/D488FFDD88FFBBD 4/
语音
代理/已完成项目然而,当我移动或复制文件到我的主分区(在Ubuntu桌面或一个主文件夹,例如音乐或文档),它
浏览 0
提问于2020-03-17
得票数 4
2
回答
pocketsphinx不能有效地
识别
通过麦克风记录的单词(命令)
、
、
、
、
我在我的debian 9系统上编写了这个
语音
识别
库的C代码。 我在一个名为goforward.raw的文件中记录了一个示例音频,该文件中有一个命令:“前进”。pockesphinx_continuous程序既不能有效地
识别
使用linux上的arecord工具通过耳机记录的单词,也不
识别
给出的示例代码。只需部分
识别
,即将“前进”命令
识别
为“前进”,这是可以的,但其他命令
识别
得很差。如果你说你好,就会变成你是谁。?有趣的是,使用文本到
语音
工具pico2wa
浏览 4
提问于2017-11-27
得票数 3
2
回答
自认证抗篡改第一次会议
、
、
、
我不知道我要找的确切词是什么,所以如果有更好的表达方式,我很抱歉。我想的是如何转移身份,使其具有抗篡改能力,并可用于身份验证。如果您通过不安全的网络发送公钥,则在使用Diffie-Hellman密钥交换等情况下,它有被修改的机会。你的通讯是安全的,但没有经过认证。 解决这一问题的方法之一是PGP,一个信任网络,在看到你的照片后,人们会签下你的钥匙,或者通过做你的朋友来认识你。他们通过看
浏览 0
提问于2013-10-07
得票数 3
7
回答
自动生成字幕/关闭字幕从视频使用
语音
到文字?
是否有一个程序可以执行基本的
语音
到文本以便创建基本的文本字幕(使用某种
语音
到文本) 我知道gnome-字幕的事。然而,手工创建这些字幕需要付出大量的努力。YouTube具有上述功能(使用
语音
到文本在正确的时间创建基本的文本字幕)。然而,我宁愿不上传视频到YouTube仅仅是为了得到我的字幕。有可能在Ubuntu上高效地制作字幕吗?更新2:有用于Linux的
语音
到文本软件,以及CMU Sphinx包。根据这个职位,使用CMU狮身人面像和字幕程序是可能的。任务继续找到一个程序,它使用C
浏览 0
提问于2011-01-31
得票数 20
回答已采纳
1
回答
JavaScript音频分析
语音
学
、
、
、
、
问题是,在加载音频数据之后,我有一个大约1024长的Uint8Array数据点,代表波长(每帧),我如何猜出这是什么声音(来自所提到的
语音
的选择,即:丽莎A 闭上嘴表示“P”、“B”和“M”的声音我知道有很多机器学习选项,比如、和,但是我想要一个算法来
实时
地检测到上面的
语音
。它不需要100%的准确性,只是稍微好于随机选择某些值的口腔.在这一点上,任何比随机更好的东西都可以。我知道音频
识别
可以用来完成,这是在中使用的,但是我想要的只是一个非常简单的算法,给出每帧一个波长的1024个数据阵列,如何获得
语音</e
浏览 2
提问于2020-05-31
得票数 4
8
回答
深度学习在腾讯云上有哪些应用?
腾讯云有哪些相关产品呢?我想使用深度学习做一些事情,但是对我这种小白来说可能有点难,有没有相关的应用场景参考下,有教程的话最好!
浏览 1796
提问于2018-09-07
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
智能语音机器人哪家好?
语音机器人电话哪家好?
如何语音识别翻译?语音识别翻译软件哪个好?
中银通支付卡实时回收平台哪家好
ai语音机器人软件哪家好
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券