在R中的"autodetec“函数之后，是否可以识别每个对话的说话者

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

有没有人知道是否有可能为每个对话找到发言人，这样我们就可以知道每个明星和结束持续时间是speakerA talking还是speakerB talking。autodetec(flist = sub, threshold = 0.5, env = "abs", ssmooth = 500, power = 1, redo = TRUE,

浏览 17提问于2017-01-27得票数 0

2回答

识别个体声音

、

我计划写一个对话分析软件，它将识别单个演讲者，他们的音高和强度。音调和强度有点简单(音调通过自相关)。我如何识别单个说话者，以便记录他/她的特征？为每个说话者的频率存储一些启发式信息就足够了吗？我可以假设一次只有一个人发言(严格不重叠)。我还可以假设，为了进行训练，每个说话者<em

浏览 0提问于2010-05-07得票数 2

1回答

说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录

、、、、

我想做一个语音到文本分析的项目，我想要1)说话人识别，2)说话人二元化，3)语音到文本。现在我正在测试为微软，谷歌，亚马逊，IBM等公司提供的各种API，我发现在微软，你可以选择用户注册和说话人识别()，但是，所有其他平台都有说话人二值化，但没有说话人识别。在扬声器二元化中，如果我理解正确，它将能够“区分”用户，但它如何识别，除非我不注册他们？我

浏览 0提问于2020-01-20得票数 0

1回答

只有当扬声器直接在麦克风前面时，语音到文本库/引擎才能正常工作吗？

、、

问这个问题的另一种方式，我想是，“Android手机/平板电脑上的mics是单向的还是全方位的？”我想知道一个语音到文本应用程序是否可以在一次对话中接收多个演讲者，还是功能上仅限于在麦克风前说话的人，比如当IPhoniacs问"Siri“问题时，还是当一个年轻人拿着设备练习他的葛底斯堡演讲时？

浏览 0提问于2014-04-17得票数 0

回答已采纳

1回答

如何模拟信息的接收？

、、

我现在面临的问题是，我想模仿信息的接收。有可能吗？

浏览 1提问于2018-08-14得票数 0

1回答

将两个音频文件与说话人进行比较，计算相似度

、、

大图片：试图在视频采访中识别代理欺诈行为。我有采访的视频片段。每个人都有两个或更多的面试。作为第一步，我试图从访谈中提取音频，并试图匹配它们，并确定音频是否来自同一个人。我使用python库librosa解析音频文件并生成这些文件的MFCC和chroma_cqt特性。我还为这些文件创建了一个相似矩阵。我想把这个相似矩阵转换成0到100之间的分数，其中100是完全匹配的，0是完全不同的。在此

浏览 7提问于2022-09-26得票数 1

回答已采纳

1回答

是否有可能将ibm和结合起来？

、、、

我需要这两个API，因为在IBM中，watson有这样一个特性，即在识别说话人方面，但是在将语音转换为文本过程中，准确性并不是很准确。虽然在中，语音转换成文本的效果更好，但是他们可以识别英语-菲律宾口音，但是在识别说话者时，IBM有更好的效果。我想要创建一个演讲文本应用程序，可以识别<

浏览 1提问于2019-04-01得票数 1

回答已采纳

3回答

音频分析来检测人类的声音、性别、年龄和情绪--之前有没有做过开源工作？

、、、

在“音频分析”领域有没有以前做过的开源工作来检测人声(比如在一些背景噪音的情况下)，确定说话者的性别，可能不会。演讲者的年龄、演讲者的情绪？我的直觉是，像CMU Sphinx这样的语音识别软件可能是一个很好的起点，但如果有更好的东西，那就太好了。

浏览 1提问于2011-02-21得票数 24

回答已采纳

4回答

Python说话人识别

、、

我有一个音频文件，两个人的电话通话录音，我需要自动分离两个扬声器的声音。我是语音识别的新手，我看过python的wave模块，但没有找到任何有用的信息。请帮助一下如何开始。另外，请向我推荐免费的python库，这将帮助我解决这个问题。

浏览 0提问于2011-09-05得票数 21

1回答

使用Cortana口述文档

、、、、

我目前正在做关于Cortana的研究，因为我有兴趣为它做一些自定义技能的开发。目前，我正在使用Cortana调用Windows语音识别，然后我可以使用WSR将文本口述到Word中。正如我所发现的，这是一个相当麻烦的问题，我很好奇是否可以做些什么来在Cortana中集成一个机器人来实现同样的目的。我查阅并阅读了一些关于Azure机器人框架、认知服务、LUIS等的内容。是否</

浏览 3提问于2018-05-17得票数 0

1回答

通过microfone为两个人提供语音到文本的转换(语音到文本的天青认知服务)

、

我正在尝试用Azure's SpeechToText认知服务通过麦克风转录两个人的real-time对话。问题是认知服务样本中的哪种场景最适合这种情况(我假设对于这种场景，speech_recognize_continuous样本，但我没有从文件中找到麦克风的这种情况)，是否可以对每个说话者的讲话结果进行分割此演示的结果应该如下所示：

浏览 15提问于2020-02-23得票数 0

1回答

基于twilio的实时呼叫转录

、、

在更高的层次上，我试图复制克里斯在他的演示中展示的东西：。这是我想要得到的呼叫流：客户将自动连接到可用的代理。有一个web钩子，它显示客户和代理之间呼叫的实时转录(最好带有说话人标识)。在浏览twilio文档和其他堆栈溢出线程(例如)之后，似乎需要在代理和客户之间创建一个电话会议以及一个静音的“主管”，然后使用customer动词来监听会话。有几件事我

浏览 0提问于2019-07-08得票数 2

1回答

如何设计一种用于说话人识别的人工神经网络？

、

我想设计一个说话人识别软件，使用人工神经网络(给定一个音频，我希望能够识别谁是说话人)。我正在考虑将发言者的名字存储在一个数据库中，在数据库中，每个发言者都有一个独特的id：网络是这样设计的：-输入是音频特性(频率、音调等)-隐藏层-一个输出:扬声器的数据库ID 我的问题是网络架构背后的逻辑<em

浏览 1提问于2015-02-19得票数 0

回答已采纳

2回答

如何使用Lync SDK获取其他用户的呼叫和电话会议详细信息

、、

如何使用Lync SDK获取其他用户的呼叫和电话会议详细信息。我很想知道他现在在和谁说话。

浏览 7提问于2015-01-16得票数 0

1回答

我最初使用@sys.any参数设置我的intent，该参数收集输入。然而，在语音识别方面，它遇到了困难，因为它本身不是一个单词。我认为我可以做的是创建一个名为accountCode的实体，其中包含一个条目列表(关闭了同义词)，例如：ZZZZ01然后，我将intent参数从@sys.any更改为@accountCode我希望它能根据识别结果选择最接近的匹配值。但是，它现在根本无法填充参数值。有没有其他方法可以</

浏览 15提问于2018-03-01得票数 1

回答已采纳

1回答

有没有一种将MS语音和文本与ms说话人识别相结合的方法？

、、

它工作得很好，我可以把我说的话写成文本，然后发送给其他signalR订阅者。然后，我使用类开始识别。是否有一种方法在将音频流量发送到翻译服务以检查用户是否正确之前，然后在验证之后恢复标准执行？我认为这将

浏览 3提问于2019-10-14得票数 0

回答已采纳

1回答

在Google语音文本中添加转录本以提高识别能力。

、、、、

在我们的教堂里，有几个尤克伦难民来教堂做礼拜。为了让他们不了解布道，我制作了一个应用程序，实时发送翻译到电报。这是很好的，但识别往往不够准确。在Google中，是否可以添加带有转录的音频文件，以便能够了解说话人的输出？我们总是同一个说话者，所以如果我能让谷歌‘了解’扬声器

浏览 10提问于2022-05-16得票数 4

1回答

AS3对话框文本显示

、、、

在阅读了一些文章之后，我了解到在AS3中多线程是不可能的，我仍然无法理解“假装它”的想法。然而，我正致力于在两个角色之间创建一个对话对话，并想出一种我有点怀疑的方法。所以，如果这不是我应该做的事情，那么请纠正我。我添加了一个Event.ENTER_FRAME侦听器，它调用一个名为"update“的函数。现在，" moreDialog“设置

浏览 1提问于2012-04-11得票数 0

回答已采纳

1回答

图像裁剪-感兴趣区域查询

、、

我有一组有人说话的视频，我正在构建一个嘴唇识别系统，因此我需要对图像的特定区域(下巴和嘴唇)进行一些图像处理。我有200多个视频，每个都有一句话。这是很自然的对话，因此头部会不断移动，所以嘴唇不会处于固定的位置。我很难在图像中指定我感兴趣的区域，因为必须观看每个视频并标记出我的方框有多大，以确保嘴唇在ROI内裁剪，这是非常令人厌烦的。我想知道<

浏览 2提问于2012-02-17得票数 3

回答已采纳

2回答

将value显示为HTML，就像在python中执行print()时，value如何在CMD提示符中显示一样

、、、、

我正在研究语音识别，遵循并在Django中实现。我想知道我们执行print("Listening...")和print("Recognizing...")的方式，让用户知道什么时候在命令提示中发言，是否可以在每次用户说话时在HTML页面中发送值(收听，识别)？def takeCommand(): wi

浏览 3提问于2020-11-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云