腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
R
中
的
"
autodetec
“
函数
之后
,
是否
可以
识别
每个
对话
的
说话
者
、
、
、
、
有没有人知道
是否
有可能为
每个
对话
找到发言人,这样我们就
可以
知道
每个
明星和结束持续时间是speakerA talking还是speakerB talking。
autodetec
(flist = sub, threshold = 0.5, env = "abs", ssmooth = 500, power = 1, redo = TRUE,
浏览 17
提问于2017-01-27
得票数 0
2
回答
识别
个体声音
、
我计划写一个
对话
分析软件,它将
识别
单个演讲
者
,他们
的
音高和强度。音调和强度有点简单(音调通过自相关)。 我如何
识别
单个
说话
者
,以便记录他/她
的
特征?为
每个
说话
者
的
频率存储一些启发式信息就足够了吗?我
可以
假设一次只有一个人发言(严格不重叠)。我还
可以
假设,为了进行训练,
每个
说话
者
<em
浏览 0
提问于2010-05-07
得票数 2
1
回答
说话
人
识别
vs
说话
人
识别
google cloud vs microsoft azure vs ibm watson vs aws转录
、
、
、
、
我想做一个语音到文本分析
的
项目,我想要1)
说话
人
识别
,2)
说话
人二元化,3)语音到文本。现在我正在测试为微软,谷歌,亚马逊,IBM等公司提供
的
各种API,我发现在微软,你
可以
选择用户注册和
说话
人
识别
(),但是,所有其他平台都有
说话
人二值化,但没有
说话
人
识别
。
在
扬声器二元化
中
,如果我理解正确,它将能够“区分”用户,但它如何
识别
,除非我不注册他们?我
浏览 0
提问于2020-01-20
得票数 0
1
回答
只有当扬声器直接在麦克风前面时,语音到文本库/引擎才能正常工作吗?
、
、
问这个问题
的
另一种方式,我想是,“Android手机/平板电脑上
的
mics是单向
的
还是全方位
的
?”我想知道一个语音到文本应用程序
是否
可以
在
一次
对话
中
接收多个演讲
者
,还是功能上仅限于
在
麦克风前
说话
的人,比如当IPhoniacs问"Siri“问题时,还是当一个年轻人拿着设备练习他
的
葛底斯堡演讲时?
浏览 0
提问于2014-04-17
得票数 0
回答已采纳
1
回答
如何模拟信息
的
接收?
、
、
我现在面临
的
问题是,我想模仿信息
的
接收。 有可能吗?
浏览 1
提问于2018-08-14
得票数 0
1
回答
将两个音频文件与
说话
人进行比较,计算相似度
、
、
大图片:试图
在
视频采访
中
识别
代理欺诈行为。 我有采访
的
视频片段。
每个
人都有两个或更多
的
面试。作为第一步,我试图从访谈中提取音频,并试图匹配它们,并确定音频
是否
来自同一个人。我使用python库librosa解析音频文件并生成这些文件
的
MFCC和chroma_cqt特性。我还为这些文件创建了一个相似矩阵。我想把这个相似矩阵转换成0到100之间
的
分数,其中100是完全匹配
的
,0是完全不同
的
。在此
浏览 7
提问于2022-09-26
得票数 1
回答已采纳
1
回答
是否
有可能将ibm和结合起来?
、
、
、
我需要这两个API,因为
在
IBM
中
,watson有这样一个特性,即在
识别
说话
人方面,但是
在
将语音转换为文本过程
中
,准确性并不是很准确。虽然
在
中
,语音转换成文本
的
效果更好,但是他们
可以
识别
英语-菲律宾口音,但是
在
识别
说话
者
时,IBM有更好
的
效果。我想要创建一个演讲文本应用程序,
可以
识别<
浏览 1
提问于2019-04-01
得票数 1
回答已采纳
3
回答
音频分析来检测人类
的
声音、性别、年龄和情绪--之前有没有做过开源工作?
、
、
、
在
“音频分析”领域有没有以前做过
的
开源工作来检测人声(比如在一些背景噪音
的
情况下),确定
说话
者
的
性别,可能不会。演讲
者
的
年龄、演讲
者
的
情绪?我
的
直觉是,像CMU Sphinx这样
的
语音
识别
软件可能是一个很好
的
起点,但如果有更好
的
东西,那就太好了。
浏览 1
提问于2011-02-21
得票数 24
回答已采纳
4
回答
Python
说话
人
识别
、
、
我有一个音频文件,两个人
的
电话通话录音,我需要自动分离两个扬声器
的
声音。我是语音
识别
的新手,我看过python
的
wave模块,但没有找到任何有用
的
信息。 请帮助一下如何开始。另外,请向我推荐免费
的
python库,这将帮助我解决这个问题。
浏览 0
提问于2011-09-05
得票数 21
1
回答
使用Cortana口述文档
、
、
、
、
我目前正在做关于Cortana
的
研究,因为我有兴趣为它做一些自定义技能
的
开发。目前,我正在使用Cortana调用Windows语音
识别
,然后我
可以
使用WSR将文本口述到Word
中
。正如我所发现
的
,这是一个相当麻烦
的
问题,我很好奇
是否
可以
做些什么来
在
Cortana中集成一个机器人来实现同样
的
目的。我查阅并阅读了一些关于Azure机器人框架、认知服务、LUIS等
的
内容。
是否</
浏览 3
提问于2018-05-17
得票数 0
1
回答
通过microfone为两个人提供语音到文本
的
转换(语音到文本
的
天青认知服务)
、
我正在尝试用Azure's SpeechToText认知服务通过麦克风转录两个人
的
real-time
对话
。问题是认知服务样本
中
的
哪种场景最适合这种情况(我假设对于这种场景,speech_recognize_continuous样本,但我没有从文件中找到麦克风
的
这种情况),
是否
可以
对
每个
说话
者
的
讲话结果进行分割此演示
的
结果应该如下所示:
浏览 15
提问于2020-02-23
得票数 0
1
回答
基于twilio
的
实时呼叫转录
、
、
在
更高
的
层次上,我试图复制克里斯在他
的
演示
中
展示
的
东西:。这是我想要得到
的
呼叫流: 客户将自动连接到可用
的
代理。有一个web钩子,它显示客户和代理之间呼叫
的
实时转录(最好带有
说话
人标识)。
在
浏览twilio文档和其他堆栈溢出线程(例如)
之后
,似乎需要在代理和客户之间创建一个电话会议以及一个静音
的
“主管”,然后使用customer动词来监听会话。有几件事我
浏览 0
提问于2019-07-08
得票数 2
1
回答
如何设计一种用于
说话
人
识别
的人工神经网络?
、
我想设计一个
说话
人
识别
软件,使用人工神经网络(给定一个音频,我希望能够
识别
谁是
说话
人)。我正在考虑将发言者
的
名字存储
在
一个数据库
中
,在数据库
中
,
每个
发言者都有一个独特
的
id:网络是这样设计
的
:-输入是音频特性(频率、音调等)-隐藏层-一个输出:扬声器
的
数据库ID 我
的
问题是网络架构背后
的
逻辑<em
浏览 1
提问于2015-02-19
得票数 0
回答已采纳
2
回答
如何使用Lync SDK获取其他用户
的
呼叫和电话会议详细信息
、
、
如何使用Lync SDK获取其他用户
的
呼叫和电话会议详细信息。我很想知道他现在在和谁
说话
。
浏览 7
提问于2015-01-16
得票数 0
1
回答
DialogFlow -改进字母数字参数
的
实体/参数
识别
、
我最初使用@sys.any参数设置我
的
intent,该参数收集输入。然而,
在
语音
识别
方面,它遇到了困难,因为它本身不是一个单词。我认为我
可以
做
的
是创建一个名为accountCode
的
实体,其中包含一个条目列表(关闭了同义词),例如:ZZZZ01然后,我将intent参数从@sys.any更改为@accountCode我希望它能根据
识别
结果选择最接近
的
匹配值。但是,它现在根本无法填充参数值。 有没有其他方法
可以</
浏览 15
提问于2018-03-01
得票数 1
回答已采纳
1
回答
有没有一种将MS语音和文本与ms
说话
人
识别
相结合
的
方法?
、
、
它工作得很好,我
可以
把我说的话写成文本,然后发送给其他signalR订阅
者
。然后,我使用类开始
识别
。
是否
有一种方法
在
将音频流量发送到翻译服务以检查用户
是否
正确之前,然后
在
验证
之后
恢复标准执行?我认为这将
浏览 3
提问于2019-10-14
得票数 0
回答已采纳
1
回答
在
Google语音文本
中
添加转录本以提高
识别
能力。
、
、
、
、
在
我们
的
教堂里,有几个尤克伦难民来教堂做礼拜。为了让他们不了解布道,我制作了一个应用程序,实时发送翻译到电报。这是很好
的
,但
识别
往往不够准确。
在
Google
中
,
是否
可以
添加带有转录
的
音频文件,以便能够了解
说话
人
的
输出?我们总是同一个
说话
者
,所以如果我能让谷歌‘了解’扬声器
浏览 10
提问于2022-05-16
得票数 4
1
回答
AS3
对话
框文本显示
、
、
、
在
阅读了一些文章
之后
,我了解到
在
AS3
中
多线程是不可能
的
,我仍然无法理解“假装它”
的
想法。然而,我正致力于
在
两个角色之间创建一个
对话
对话
,并想出一种我有点怀疑
的
方法。所以,如果这不是我应该做
的
事情,那么请纠正我。 我添加了一个Event.ENTER_FRAME侦听器,它调用一个名为"update“
的
函数
。现在," moreDialog“设置
浏览 1
提问于2012-04-11
得票数 0
回答已采纳
1
回答
图像裁剪-感兴趣区域查询
、
、
我有一组有人
说话
的
视频,我正在构建一个嘴唇
识别
系统,因此我需要对图像
的
特定区域(下巴和嘴唇)进行一些图像处理。 我有200多个视频,
每个
都有一句话。这是很自然
的
对话
,因此头部会不断移动,所以嘴唇不会处于固定
的
位置。我很难
在
图像中指定我感兴趣
的
区域,因为必须观看
每个
视频并标记出我
的
方框有多大,以确保嘴唇
在
ROI内裁剪,这是非常令人厌烦
的
。我想知道<
浏览 2
提问于2012-02-17
得票数 3
回答已采纳
2
回答
将value显示为HTML,就像在python
中
执行print()时,value如何在CMD提示符
中
显示一样
、
、
、
、
我正在研究语音
识别
,遵循并在Django
中
实现。我想知道我们执行print("Listening...")和print("Recognizing...")
的
方式,让用户知道什么时候
在
命令提示中发言,
是否
可以
在
每次用户
说话
时
在
HTML页面中发送值(收听,
识别
)?def takeCommand(): wi
浏览 3
提问于2020-11-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
是谁在说话?谷歌多人语音识别新系统错误率降至2%
电话客服机器人的语音后端识别处理
赛尔原创@EMNLP 2020|开放域对话系统的属性一致性识别
自定义“发送到”功能
深度学习第29讲:目标检测算法经典论文研读之 yolo v1
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券