js 语音波形 - 腾讯云开发者社区

、、

我已经使用Java Sound API构建了一个应用程序，该应用程序能够录制和播放语音，程序在录制完成后显示录制的语音的波形。我想在录制完成的同时显示波形。

浏览 0提问于2011-03-14得票数 4

4回答

如何在Python中进行实时语音活动检测？

、、、、

我正在对记录的音频文件执行语音活动检测，以检测波形中的语音和非语音部分。分类器的输出类似于(突出显示的绿色区域表示语音)：我在这里面临的唯一问题是让它工作的音频输入流(例如:从麦克风)，并做一个规定的时间框架的实时分析。我知道PyAudio可以用来动态地记录麦克风上的语音，还有一些波形、频谱、谱图等实时可视化的例子，但是没有找到任何与以近乎实时的方式进行特征提取相关的东西。

浏览 11提问于2020-03-24得票数 17

回答已采纳

2回答

来自苹果商业广告的波形API？

、、、

在新的iPhone 3GS商业广告中，苹果用一个很酷的蓝色波形动画展示了语音控制。这种渲染波形(或者可能只是体积)的视觉效果是否可以作为API调用或源代码在某个地方使用？(不是语音控制部分，只是音频可视化部分)谢谢!

浏览 1提问于2009-07-10得票数 1

回答已采纳

1回答

非英文窗口系统上语音识别

、、、

我无法在我的荷兰语windows系统上使用语音识别应用程序，因为它只在英文版本上可用。这个是可能的吗？有这样的库吗？

浏览 1提问于2013-11-05得票数 2

1回答

如何在语音识别中获取音素？

、、、、

我正在从事语音识别工作，以显示音素和它的波形，如果可能的话，使用vista和Windows7的内置语音识别使用Delphi2009。欢迎使用其他编程语言。

浏览 7提问于2010-06-01得票数 1

1回答

绘制语音频谱图的TSNE散点图

、、、、

我有属于4类的语音波形的频谱图。我想绘制TSNE散点图，以可视化语音文件在四个类中的分布。我怎样才能用tsne做到这一点？

浏览 16提问于2019-05-10得票数 0

回答已采纳

1回答

在我的应用程序中，我想记录音频，在记录的时候显示一个波形，然后滚动这个波形来记录和播放指定的时间。例如，如果我有3分钟的音频，我应该能够滚动回2:00，并开始录制从那里修复一个错误。在语音备忘录中，这是即时完成的，没有任何延迟或加载时间。我想弄清楚这是怎么回事，如果有人有线索的话。EZAudio --这个图书馆很棒，但没有做我想做的。你不能滚动波形。它在开始时删除波形数据，并在达到一定长度时开始将其追加到末尾。 SCWaveformView -这个波形很好，但它使用图像。

浏览 3提问于2015-05-11得票数 10

回答已采纳

1回答

用时间值改变波形图的颜色

、

我目前正在做一个语音处理项目，并且有一个关于西班牙语单词的时间波形的快速问题。我想突出显示波形中包含音素ai的部分。使用Audacity，我已经能够在音素出现的时间标记位置，并想知道我如何能够改变波形的那个部分的颜色。

浏览 3提问于2017-02-15得票数 2

回答已采纳

1回答

为什么是情节特征？

、

在PyTorch的教程基于波形2Vec2的语音识别中，声学特征是从音频波形中提取出来的(尽管它是不必要的，因为该模型可以一步完成特征提取和分类)，然后绘制。我们从这些阴谋中得到了什么？

浏览 0提问于2022-11-03得票数 0

2回答

如何找到选定的SpeechSynthesizer语音的音频格式

、、、

在C#的文本到语音应用程序中，我使用了SpeechSynthesizer类，它有一个名为SpeakProgress的事件，该事件是为每个口语触发的。但是对于某些声音，参数e.AudioPosition与输出音频流不同步，并且输出波形文件的播放速度比这个位置显示的要快(参见)。无论如何，我正试图找到有关比特率的确切信息和与所选语音相关的其他信息。正如我所经历的，如果我能够用这个信息初始化这个波形文件，同步问题就会得到解决。但是，如果我在SupportedAudioFormat中找不到这样的信息，我就没有其他方法可以找到它们

浏览 5提问于2015-12-08得票数 10

回答已采纳

1回答

必应语音API从麦克风发送实时音频

、、

我尝试了必应语音API application.It将工作良好的波形文件检测模式，但如何读取麦克风。是否有可用的示例程序？

浏览 0提问于2018-02-07得票数 0

回答已采纳

1回答

如何解码语音输入

、、、

我想要做的是创建一个API，将人类语音翻译成IPA (国际音标)格式。我的问题是，关于如何在原始音频波形级别解码语音的资源在哪里？我寻找一个API，但我找到的大多数东西都直接翻译成罗马字母。我希望创造一些更准确的东西来区分发声的语音。

浏览 5提问于2012-07-20得票数 5

回答已采纳

1回答

我应该使用什么Wav格式来记录音频和识别其中的语音？

这就是流动：使用VOSK语音识别的第一级语音检测，并将录制的音频添加到内存流中。如果识别了语音，则将内存流保存到wav文件中。第二级语音识别使用Microsoft认知语音服务从wav文件中读取。我的问题是，在保存wav文件时，我应该使用什么样的波形格式来临时提高认知语音服务的语音识别精度。

浏览 15提问于2022-02-16得票数 0

1回答

提取音频文件的二进制表示

、、、

我想要这个提取这些表示，以识别语音和声音，即一个基本的语音识别软件。编辑-我想获得音频的波形，而不是图形，而是二进制表示，这样我就可以将语音转换为文本。

浏览 2提问于2012-03-05得票数 0

2回答

Flash:为上传的声音生成/显示声音波形

、、

我有一个项目，需要我显示一个上传的声音波形。声音始终是MP3，大多数时间是22.05 kHz单声道，只有语音。我找到并观察过的所有生成波形的例子，要么是在声音播放时实时进行可视化，要么是最有希望的，它保持已经生成的波形，但它做得非常慢，似乎使用了和播放音频一样长的时间。有没有办法产生比实时更快的电波？

浏览 1提问于2011-03-14得票数 2

回答已采纳

2回答

波形比较

、、、

我的目标是通过将声音的波形与我的数据库中的波形进行比较，来识别声音是否属于IPA。我精通数学，SciPy和PyBrain。我想把一个声音文件分成与不同音节相对应的波形--这将需要一个学习算法。所以，“我喜欢苹果”会被切成组成句子的音节波形。然后将每个波形与英国PA的波形进行比较。我不知道该怎么演这部分。我正在考虑使用Praat来检测波形，捕

浏览 8提问于2016-10-29得票数 1

回答已采纳

2回答

GDK如何在没有网络连接的情况下处理语音触发

、

我希望能够在我的眼镜应用程序中使用具有已知定义(0-9)的语音意图。关于玻璃语音触发器，当用户使用"OK，Glass“菜单时，他们会得到一个可用应用程序列表的提示，这些应用程序具有可识别的语音触发器。

浏览 2提问于2014-03-10得票数 2

1回答

我用算法来比较样本的错误是什么？

我想要比较和识别两个声音流。我创建了自己的算法，但它的工作并不完全像我想要的那样。我试着拿几个字母"A，B，C“和"D，E，F”或者"facebook“和”音乐“进行比较，算法给出了这个比较的真实价值，但这些都不是相同的词。我的算法是如此不精确，还是它是由笔记本电脑的麦克风记录的声音质量的原因造成的？我的比较算法的概念:我从一个流取100个样本(可以是在轨道中间)，并以指定的方式检查每一条第二流的每一段:前0-99样本，1- 100，2-101等等。我的程序与一条输入轨迹相比只有几条轨迹，所以我的算法可以从每条路径中得到最好的解决方案(最相似的样本)，但不幸的是，它得

浏览 1提问于2014-06-02得票数 0

回答已采纳

1回答