谱减法语音降噪_谱减法语音减噪_谱减法 - 腾讯云开发者社区

、、、

我是sphinx4和语音识别的新手。我正在使用sphinx4创建一个语音应用程序。问题是噪声，即使没有用户的语音输入，它也会导致程序识别。即使用户没有语音输入，它也会将语音转换为文本，从而影响准确性。主要问题是如何实现降噪。这是因为即使我没有对着麦克风说话，系统也能检测到输入。所以我猜是因为噪音。我在网上查看了降低噪音的信息，但几乎没有关于同样的信息。虽然在网上有一些关于sphinx4自带的Denoise.java文件的信息。但在sphinx4-1.06中没有。另一个文件是WienerFilter.java，wienerfilter是一种用于噪声信号的滤波器。但是没有关于使用或实现该文件

浏览 5提问于2015-03-15得票数 0

1回答

pocketsphinx之前的降噪会降低识别精度。

、、、

我试图提高麻雀在嘈杂环境中的识别精度。但是，用户可能在可变环境中使用该应用程序。因此，用噪音训练不是我想做的事。我的问题是，在把语音信号输入到袖珍狮身人面像之前，减低噪音是否一定会降低识别的准确性？如果是，则在降噪后需要保留哪些语音特征？目前，我观察到，如果使用降噪，WER从~40%(自由语言)上升到60%。加一句，在降噪后，讲话听起来确实更好。 Pocketsphinx argfile: -lm lm_giga_64k_vp_3gram.DMP -dict lm_giga_64k_vp.sphinx.dic -hmm voxforge_en_sphinx.cd_cont_50

浏览 5提问于2014-09-03得票数 3

回答已采纳

1回答

如何将语音文件送入RNN/LSTM进行语音识别？

、、、

我正在研究RNN/LSTM。我用RNN做了一个简单的项目，在其中我将文本输入到RNN中。但是我不知道如何将语音输入到RNN中，也不知道如何对递归网络的语音进行预处理。我已经从medium和其他网站上阅读了很多文章。但我不能在网络中使用语音。你可以分享任何项目，其中语音和RNN/LSTM或任何可以帮助我。

浏览 4提问于2019-02-01得票数 1

2回答

如何通过预处理提高google语音识别性能

当我尝试google语音识别时，它对带有背景噪声的繁体中文音频文件显示性能较低。经过一些预处理(如语音增强)后，我可以提高语音识别的性能吗？它能在谷歌语音服务上工作吗？

浏览 10提问于2018-02-22得票数 0

1回答

网络音频API :麦克风流到扬声器音量下降？

、、

我使用Web音频API将我的麦克风输入到扬声器中，这样我就可以通过它们听到自己的讲话： var aCtx = new AudioContext(); navigator.mediaDevices.getUserMedia({audio: true}).then(function (stream) { var microphone = aCtx.createMediaStreamSource(stream); microphone.connect(aCtx.destination); }) 它工作得很好，但每当我保持稳定的长语音输入时，似乎输出增益在几秒钟后就会下降。我听从

浏览 14提问于2017-01-27得票数 6

回答已采纳

1回答

如何从鳗鱼光谱的边缘自动获得信号和误差？

、、

是否有DM-script函数，或者其他方法，从光谱图像或一系列背景减电磁谱？中获得信号积分和信号积分的误差。我正在分析DigitalMicrograph中的一系列鳗鱼光谱。我使用DM中的普通工具，在背景减法后得到不同窗口中的信号计数。当我一次分析一个光谱时(例如用鳗鱼量化…)，并选择“单谱”)，除了对频谱信号进行估计外，还对误差进行了估计。例如，我得到：Signal (counts): 2.91e+004 ± 1366。但是，如果我分析光谱图像或谱线(SI\Map\信号(Dynamic)…)中的全部光谱序列或者使用ELLS\量化，但选择父频谱-图像)，我无法获得误差，我只获得信号

浏览 4提问于2017-06-19得票数 1

回答已采纳

2回答

高度相关数据对卷积神经网络的影响是什么？

、、

语音音频样本可转换为MFCC系数以进行进一步分析。我想知道相关数据对CNN的影响。我知道MFCC系数的计算过程，利用离散余弦变换(DCT)对滤波器组系数进行去相关，得到滤波器组的压缩表示。当我们想进一步使用CNN来分析时，我想就过滤器组和MFCC的使用进行争论。滤波器组产生高度相关的数据。MFCC导致去相关数据。如果我计划训练CNN的语音分类模型，我应该选择哪一个？

浏览 0提问于2018-11-04得票数 0

1回答

在处理Web音频API中的语音输入时，如何利用完整的谱图分辨率？

、

我正在开发一个在线的可视汉语声调助手类的东西。这涉及到使用进行基音检测。但该算法的性能受入射谱图分辨率的限制。到目前为止，我一直在使用分析器节点，但是由于我无法设置音频上下文的采样率，所以在谱图中，我得到了不必要的最高频率(samplerate/2 =大约24 kHz，而人类的语音只有大约3.4 kHz)。因此，如果我的谱图分辨率为1024 (因为web音频api允许的最大fft大小是2048)，在分析我的语音输入时，我只使用动态范围的一小部分。为了解决这一问题，我还试图使用scriptProcessorNode来收集一个缓冲区，用中的FFT进行分析，以获得更多的控制，但与使用分析器节点相比

浏览 0提问于2013-07-30得票数 2

回答已采纳

1回答

过滤掉某些语音Google Speech API

、、、

我正在创建一个语音机器人使用谷歌语音流API和谷歌文本到语音。我只希望用户的语音被转录，即使用户“中断”了voicebot的响应。如何避免voicebot转录自己的声音？根据我对Siri等现有语音机器人的测试，当使用扬声器时，“过滤”某些声音的能力似乎是可行的。谢谢

浏览 1提问于2019-02-27得票数 2

2回答

什么是检测噪声音频数据中罕见的语音的好方法？

、

我有一些录音(相对静态的，但有噪音的背景，例如，风在一个开放的区域)，有少量的短时语音(约1%的总音频持续时间)。在没有监督的情况下，什么是检测语音发生的好方法？我尝试过在光谱图上进行简单的阈值处理，但这是有问题的，因为：背景的强度会随着时间的推移而谨慎(例如，噪音有时会更大)。不同的语音片段不需要彼此相似。通常情况下，语言太安静(与背景的平均响度相比)，而且被噪声覆盖。这似乎是一项相当艰巨的任务，但是我可以很容易地通过听音频/查看声谱图来注意到语音片段，因为语音谱图有一些不同的结构(尽管依赖于结构检测并不简单，因为它仍然是非常不固定的)。请注意，我只是想用一些听起来像人类语音(

浏览 0提问于2018-09-20得票数 2

回答已采纳

1回答

愚蠢的想法:来自PHP服务器的Mac语音？

、、

我想合成Mac的演讲，但我用的是个人电脑。我可以在家里的Macbook上设置一个PHP服务器，并让它为我合成文本，并通过网络请求返回给我吗？就像http://mymacbook.com/speak.php?t=why+hello+there 什么秘密PHP代码将解锁这种可能性？我知道我可以用say -o "output.aiff" -f "input.txt"在命令行上合成语音，但我需要帮助处理这里的结缔组织。和没有-我不想链接到倒谱或AT&T的在线语音合成器，因为我想使用特殊的Mac语音合成语法。

浏览 4提问于2011-09-27得票数 9

回答已采纳

1回答

如何在android中对本地数据库进行语音识别检查？

、

你还记得在旧手机里，你可以通过语音快捷方式给一个人打电话吗？我正在尝试在android中制作一个具有该功能的应用程序。用户录制它想要用来控制应用程序的单词或声音，并且语音识别器将只检查它听到的声音是否等于先前录制的声音。有没有人知道怎么做或者知道导游？我已经寻找了几个月，没有找到一个令人满意的解决方案。谢谢

浏览 2提问于2013-04-02得票数 3

回答已采纳

2回答

在iPhone上流式传输音频时，是否有可能减少背景噪音？

、、、、

我们使用了一些WebRTC libraries，并在iPhone上的一个测试应用程序中实现了它们。测试应用程序允许使用该应用程序的两部手机之间进行语音通话，类似于Skype。这款应用捕捉到了大量的背景噪音，比Skype或Line等其他手机应用要多得多。有没有办法减少背景噪音？

浏览 2提问于2013-02-13得票数 2

回答已采纳

1回答

Matlab，fdesign，采样率

、、、

我在Matlab中使用函数fdesign.lowpass，对一个8 8kHz的信号进行采样。我正在为一个语音信号做一个滤波器，并希望滤除高斯噪声，我已经找到了基本的freq。在343赫兹附近使用FFT。所以我在Matlab中使用了这个命令： fdesign.lowpass('Fp,Fst,Ap,Ast',319,378,0.25,1,8000); 我的抽样率应该是8000/2吗？

浏览 4提问于2016-10-14得票数 1

1回答

如何使用FFT变换的阵列检测基音？

、、、、

所以我有一组变换的复数。我不知道如何处理返回的数据。我试着计算每个元素的震级，指定最高的元素作为正确的频率，但是我发现我经常得到像5000 as这样奇怪的数字。是否有一个更好的操作，我可以执行返回的数据，以确定音高？注意:我想使用音调作为语音活动检测算法的一部分。

浏览 2提问于2013-09-14得票数 1

回答已采纳

1回答

在Android上查找语音音高

、、、

如何从我的语音记录中找到最小、最大、平均、标准开发音高？我使用AudioRecord录制我的声音。 frequency = 8000; channelConfiguration = AudioFormat.CHANNEL_CONFIGURATION_MONO; audioEncoding = AudioFormat.ENCODING_PCM_16BIT; recordInstance = new AudioRecord(MediaRecorder.AudioSource.MIC,frequency, channelConfiguration, audioEncoding, bufferSiz

浏览 3提问于2012-04-02得票数 5

3回答

如何使用tensorflow-wavenet

我正在尝试使用程序进行文本到语音。这些步骤如下：下载Tensorflow 下载librosa 安装需求pip install -r requirements.txt 下载语料库并放入“语料库”目录训练机器python train.py --data_dir=corpus 生成音频python generate.py --wav_out_path=generated.wav --samples 16000 model.ckpt-1000 完成此操作后，如何生成文本文件的语音读取？

浏览 7提问于2017-01-16得票数 5

1回答

记录语音和分析频率的最好方法是什么？

、

我需要转换语音样本，并记录到数据库中。我对数字信号处理完全陌生。最终，我们的目标是从语音样本中找到异常值。但要做到这一点，我需要获得频率和赫兹。但是我不知道从哪里开始。仅供参考，我有大多数编程语言的知识，Java，Python，Node和Ruby。

浏览 0提问于2017-10-12得票数 0

3回答

如何将ogg文件转换为电报语音格式？

、

我试图通过电报机器人中的SendVoice方法发送语音消息，但它将语音作为文档文件(而不是播放)发送。由ffmpeg转换为opus编码的ogg文件。 https://api.telegram.org/bot<token>/sendVoice?chat_id=x&voice=http://music-farsi.ir/ogg/voice.ogg 我的ogg文件和电报语音信息有什么不同？我的ogg文件：

浏览 0提问于2017-06-18得票数 10

回答已采纳

3回答

使用libxtract或其他小型C、C++库实现VAD功能

、

我尝试在Android上创建说话人识别系统。目前，我使用libxtract从帧计算MFCC向量，使用libsvm进行分类。你知道如何使用libxtract或其他我可以在NDK下编译的小型C，C++库来检测帧中的语音(语音活动检测)吗？

浏览 0提问于2013-09-11得票数 3

2回答

比较android中的语音wav或语音标签(语音命令)接口

、、、、

我正在开发一个应用程序，我需要一些方法来比较两个声音是否匹配，我知道语音识别器是一种方法，但由于(我认为)它需要首先将语音翻译成字符串，它不会那么适合其他语言，除了由speech recognizer....any的想法支持的语言？就像过去的电话一样，声控标签只是将语音输入与之前设置过程中录制的语音进行比较

浏览 0提问于2011-02-09得票数 6

1回答

语音聚类的聚类算法

、、、、

我们在语音域中可以使用的最佳聚类方法是什么？例如，如果我们有来自多个说话者的语音发声，并且我们需要将它们聚类到特定的篮子中，其中每个篮子对应一个speaker.For，那么我们可以使用的最佳聚类算法是什么？

浏览 2提问于2020-03-06得票数 2

2回答

在不使用MFCC将其转换为模拟信号的情况下，您仍然可以从数字信号中提取特征吗？

、、

我正在开发一个后端语音识别软件，其中用户可以导入mp3文件。如何从这个数字音频文件中提取特征？我是不是应该先把它转换回模拟模式？

浏览 3提问于2015-05-26得票数 0

1回答

关于声码器的使用

、、、

我对人工智能非常陌生，我目前正在开发一个非并行语音转换模型。我有一个令人困惑的问题，那就是投票人的使用。所以我的模型需要Mel谱图作为输入，我正在研究的当前模型是使用MelGAN声码器()，它可以从原始wav文件(这就是我所需要的)生成220 as谱图。我最近尝试了WaveGlow声码器()，它也可以从原始wav文件和返回生成Mel光谱图。但是，在其他模型中，如，，，对于wav到Mel光谱图的生成没有明确的解释。这些模型中的大多数不需要wav到Mel谱图功能，因为它们很大程度上满足了TTS模型的需求，比如Tacotron？或者所有这些都有这个特性，而我只是不知道呢？如能作出澄清将不胜感激

浏览 23提问于2022-02-01得票数 1

回答已采纳

1回答

java中的音频噪声去除

、、

需要一种算法(或对各种输入数据进行比较的一组好算法)来降低语音音频信号的噪声水平，而不需要使用Java对信号进行明显的失真。输入是一种音频信号，包括声音和一些背景噪声。在录音的过程中，噪音是不同的。有一定的方法来消除像这样的噪音，发展起来的声音识别和电影制作。所需的输出是一个最小失真的声音信号，背景干扰最小，人耳可听到。量化标准被最小化。信噪比和噪声比总谐波畸变

浏览 4提问于2017-02-18得票数 1

回答已采纳

1回答

python语音输入傅里叶变换的语音识别

、

首先，使用傅里叶变换是否是识别不同说话人的好方法？我不确定如果说的是不同的话，它是否能识别出一个声音。我知道google和amazon在他们的语音助手中都有语音/说话人识别的功能，但是如果傅里叶变换不能成功的话，还有什么好的方法来做到这一点呢？我想用神经网络识别声音，为了做到这一点，我首先需要为神经网络获得一个很好的输入，但是仅仅把录音作为输入，我不认为它会工作，因为它是基于频率和时间的。所以我找到了傅里叶变换，现在我尝试用傅里叶变换我的音频文件并绘制它。我的问题是：如何在python中用音频输入来绘制傅里叶变换？如果这是可行的，我如何在神经网络中输入傅里叶变换(我想也许给每个神经元一个

浏览 0提问于2018-09-19得票数 1

回答已采纳

3回答

语音识别是否需要MFCC功能？

、、、

我目前正在开发一个语音识别项目，我正在尝试选择最有意义的功能。大多数相关论文建议使用零交叉率、F0和MFCC特性，因此我正在使用这些特性。我的问题是，一个持续时间为00:03的培训样本有268个特点。考虑到我正在做一个多类分类项目，每个课程都有50+样本，包括所有的MFCC特征，可能会使项目受到维度的诅咒，或者“降低其他特征的重要性”。因此，我的问题是，我是否应该包括所有MFCC功能，如果没有，你能提出一个替代方案吗？

浏览 8提问于2016-08-08得票数 1

回答已采纳

1回答

在iOS中同时管理文本到语音和语音识别

、、、

我希望我的iOS应用程序使用文本到语音向用户读取从服务器接收到的一些信息，我还想让用户通过语音命令停止这样的讲话。我已经尝试过iOS的语音识别框架，比如OpenEars，我发现了一个问题，那就是它在监听和检测应用本身“说”的信息，并且它在识别用户的语音命令方面起着干预作用。有人在iOS中处理过这个场景并找到了解决方案吗？提前感谢

浏览 4提问于2016-05-06得票数 3

1回答

pocketsphinx android系统的降噪

、、

我目前正在研究我的学士论文，我想使用pocketsphinx来检测热词，包括减少噪音，使它在嘈杂的环境中工作。为此，我下载了最新的袖珍狮身人面像-android-演示，修改了一些东西，比如热词，并在开车时测试了准确性。准确度很低，我想改进一下。在中有一些有用的提示，我想看看已经实现的降噪算法(也许还可以扩展它)。问题：降噪算法是否已经实现，并在(pocketsphinx-android-5prealpha-release.aar)中作为默认使用？如果没有，如何激活此功能？为了看一看降噪算法，我可能需要查看袖珍狮身人面像 sphinxbase的源文件，对吗？如果是，哪个文件包

浏览 2提问于2017-05-21得票数 0

1回答

从FFT数据中创建波形数据？

、、、、

正如您可能注意到的，我对python和声音处理非常陌生。我(希望)使用python、logfbank和mfcc函数从波形文件中提取FFT数据。( logfbank似乎给出了最有希望的数据，mfcc的输出对我来说有点奇怪)。在我的程序中，我希望更改logfbank/mfcc数据，然后从它创建wave数据(并将它们写入文件)。我没有发现任何关于从FFT数据中创建波形数据的过程的信息。你们中有谁知道如何解决这个问题吗？我会非常感激:) 到目前为止，这是我的代码： from scipy.io import wavfile import numpy as np from python_speech_

浏览 1提问于2019-07-08得票数 1

1回答

android取消扬声器输出。消除电话反馈

、、、

我在开发一些语音识别应用。当电话响时，我需要识别单词，但要做到这一点，我必须取消发言者对麦克风的贡献。所以我想让麦克风忽略所有来自扬声器的声音。我发现AcousticEchoCanceler被VoIP应用程序用来取消回声，但我试着使用它，当我的手机铃声响起时，没有什么不同。我从一个名为“记录器”的AudioRecord对象读取音频，然后应用AcousticAudioCanceler boolean isAvailable = AcousticEchoCanceler.isAvailable(); if (isAvailable) { AcousticEchoCanceler a

浏览 0提问于2012-12-11得票数 4

2回答

OSX音频:在我自己的应用程序中使用Garage Band插件

、、、

我正在为Mac编写一个小应用程序，其中包括录制语音。在GarageBand中，以及在逻辑中，有一个名为Speech Enhancer的插件。有没有办法我可以利用这个插件，为那些安装了GB或Logic的用户提供舒适的噪音消除和均衡他们的Mac的内置麦克风？这个插件不会出现在AULab上，所以我希望它是苹果独有的东西(顺便说一句，这太离谱了)。有什么建议吗？感谢Sjakelien

浏览 1提问于2009-08-10得票数 1

回答已采纳

1回答

Apple FFT加速框架实数数组的逆FFT

、

我正在使用加速框架的FFT函数来生成声音样本的频谱图。这部分工作得很好。然而，我想(有效地)直接操纵频谱(即操纵实数)，然后再次调用逆函数，我该怎么做呢？看起来反向调用需要一个虚数数组，但是我如何从被操纵的实数中产生它呢？我试着让realp数组成为我的reals数组，imagp的零数组也是如此，但似乎行不通。我这样问的原因是因为我希望对语音音频样本运行FFT，然后再次运行FFT，然后提升倒谱的低部分(因此希望将声道分量与基音分离)，然后再次运行反向FFT，以产生更清晰地显示声道(共振峰)信息的频谱图(即，没有基音信息)。然而，我似乎遇到了逆FFT的问题，我在realp数组中传入了我的实际值(

浏览 0提问于2012-04-07得票数 0

回答已采纳

1回答

用scipy.signal.spectrogram绘制比例尺中波文件的谱图

、、、、

我有一个用于音乐和语音分析的PyQt + pyqtgraph程序，并且我想要绘制一个wav文件的频谱(使用calculated包计算)。我可以在matplotlib中这样做，但是由于matplotlib的性能，我需要切换到pyqtgraph，但是我找不到任何一致的方法来将scipy.signal.spectrogram的输出绘制成pyqt图。谢谢!

浏览 1提问于2018-07-12得票数 1

回答已采纳

1回答

rtmp 推流，但是环境噪音被放大了，请问这个怎么设置，是否有消除噪音的方法？

、、、

A端推流到B端，B端听到的A端的声音中，其中的环境噪音被放大了，例如有人走过，B端会听到哄哄哄的声音，例如敲键盘，人听到的声音很小，但是B端手机放出来的声音中敲键盘的声音很大，有没有消除环境噪音的方法

浏览 1331提问于2019-04-15

2回答

如何将语音频谱转换为时域

、、、、

我在做语音分析。我把声音录了5秒。应用Hamming窗，直流偏移和归一化，并使用fft的频谱。我想知道声音有多大变化。那么，有没有办法将fft转换回时域呢？ clc,clear; % Record your voice for 5 seconds. %recObj = audiorecorder; recObj = audiorecorder(96000, 16, 1); disp('Start speaking.') recordblocking(recObj,5); disp('End of Recording.'); % Play back the re

浏览 2提问于2014-04-06得票数 0

回答已采纳

2回答

Matlab:如何找到语音的基频

、、

我对Matlab和语音处理也很陌生。我想找出语音信号的基本频率来确定说话人的性别。我在10毫秒内分析了信号中的沉默。在此之后，我使用以下代码获得fft： abs(fft(input_signal_without_silences)) 我对语音信号和它的fft的描述如下：现在，我想找出基本频率，但我不知道我需要采取哪些步骤来做到这一点。还是我误解了这个概念？据我所知，有一些方法，比如自相关，由于我对语音处理和matlab都不熟悉，所以非常感谢您的帮助和建议。

浏览 6提问于2015-06-06得票数 0

2回答

在读取函数中用星号播放文本到语音

、、、、

因此，我的基本目标是使用dtmf，而google文本到语音agi是playing.In情况下的声音文件，我可以简单地使用读取功能，这样用户就可以在播放声音时按dtmf，并将输入存储在variable.For ex中。 [mycon] exten => _X.,1,Read(KEY,soundfile,,) 但是，如何在播放文本到语音时输入dtmf？如能提供任何帮助，将不胜感激。

浏览 1提问于2014-11-28得票数 1

回答已采纳

2回答

在为本地语言开发语言模型时，是否需要降噪算法

、、、

我正在为我的本地语言开发一个声学模型和一个语言模型，并计划将其与pocketsphinx和sphinx4集成。现在我想问一下，我是否需要为我的本地语言实现一个降噪算法来提高传输的准确性，还是口袋狮身人面像会从中受益？如果我需要，那么我应该遵循哪些步骤来集成降噪算法？

浏览 3提问于2013-04-19得票数 0

回答已采纳

2回答

如何确定FFT结果指标频率及绘制幅频图

、、、

我有一个假设的问题来理解这个概念.. 假设我捕获了一个采样率为8000 in的单声道语音片段，即4096字节的数据。通过大小为256的FFT输入前512个字节(16位编码)，将返回128个值，我将其转换为振幅。所以我的输出频率是 FFT BIN #1 0: 0*8000/256 1: 1*8000/256 . . 127: 127*8000/256 到目前为止还好吧？所以现在还剩下3584个字节的未处理数据。因此，我对512字节的数据执行了另一个256大小的fft。并得到相同数量的结果..因此，对于这个，我再次有以下频率： FFT BIN #2: Example1: 0: 0*8000/256

浏览 3提问于2012-07-19得票数 2

回答已采纳

1回答

融合两个空间数据集的最佳机器学习技术是什么？

、、、

我有两个数据集，包含点几何(X,Y)和一个记录的汽车排气参数(比如说，RP值)，一个感兴趣的区域(AOI)。数据集在空间上是不同的，即第一组数据集沿人行道(X1，Y1，RP1)，第二组数据集(X2，Y2，RP2)位于道路中线(直线分裂成等距2米点)。沿人行道的数据与在道路中心线上的数据之间的距离是不同的，在某些位置是3-6米，在某些位置是>6米(比方说，6-20米范围)。这是由于这一距离反映了不同的道路宽度，长度在一个现实的，复杂的城市景观。有了上述数据，我想融合这两个数据集，考虑到沿边行走的数据“更可靠”(从而更高的权重？)，并将融合输出与AOI中有限位置的参考数据进行比较，以评估

浏览 0提问于2022-07-20得票数 1

回答已采纳

2回答

TRTC实时音视频Windows端环境噪音消除不了，大家有什么办法吗？

、、

TRTC实时音视频Windows端环境噪音消除不了，发现腾讯会议就处理得很好。另外手机端TRTC SDK也没有什么噪音，这个有什么解决办法么？希望TRTC团队加油，把环境噪音问题处理一下，确实很影响体验。

浏览 590提问于2020-11-11

2回答

使用机器学习创建语音识别系统

、

作为机器学习的一个教育项目，我正在考虑从头开始创建一个语音识别系统。它应该能够从之前经过语音训练的说话人的声音中识别出他/她。我应该采取什么方法来应对这一挑战？具体地说，这样的系统如何在高级别上工作？如有任何建议，我们将不胜感激:)

浏览 1提问于2013-02-28得票数 0

回答已采纳

1回答

如何检测音频流中特定词的出现。

、、、

一开始我以为会像图像识别一样简单。创建FANN网络，而不是用二值转换图像来训练/喂养它，用二值转换的声音给它喂食。但是：如何将wav转换为二进制字符串(我相信我需要二进制(不是字节)，对吗？) 如何使它连续，我的意思是计数出现的字/声音从麦克风作为一个来源。什么是最好的java库来做到这一点(不是狮身人面像或其他语音识别库-我想使我的代码语言独立，甚至识别自定义的声音-比如拍手) 我以前用过FANN来进行图像识别，我知道Encog，但是也许还有更好的(或者更简单的，我并不真正理解如何使用Encog)和更好的java本机，可以方便地移植到移动设备上。

浏览 7提问于2012-09-22得票数 3

1回答

为G729 arm64编译的iOS编解码器不能正常工作。

、、

我在我的VOIP应用程序中使用了G729编解码器，当应用程序只针对armv7时，它工作得很好。凯雷能清楚地听到我的声音。然后我转向arm64，被叫的人再也听不清我的声音了。将G729编解码前后的输入语音原始数据记录在armv7设备和呼叫方arm64设备上，然后将G729编码的数据转换回来。我发现从armv7设备转换回来的语音比arm64设备要好得多。

浏览 9提问于2015-05-08得票数 4

回答已采纳

2回答

如何找到与示例声音文件最佳匹配的声音文件？

、、

我正在做一个非常简单的语音识别项目。我目前有2套wav文件。每组都有1秒长的录音，记录同一人在两个不同情况下说的一组话。例如，一组具有“一”、“二”和“三”的单词，而另一组具有通过单独记录获得的相同的准确单词。许多单词押韵和使用的声音有点不同。到目前为止，我已经尝试过几种方法，但是到目前为止，我得到的最实际的事情是对每个声音文件进行谱图(都是用相同的脚本构建的)。这一切都是通过MATLAB完成的，我只能使用MATLAB。我将把一组录音/光谱图称为“样本集”，而这套录音/光谱图将是我提供样本声音的集合。我将把另一组录音/谱图称为“测试集”，这将是我将试图找到与所提供的样本记录/谱图最佳匹配

浏览 0提问于2014-01-20得票数 0

回答已采纳

2回答

在Android上捕获原始麦克风输入

、、、、

我正在使用android中的AudioRecord类。在我的应用程序中，我想测量耳机麦克风捕获的声音，而不需要预过滤或均衡化。我知道为了达到这个结果，我必须正确地设置AudioRecord会话的音频源，但是在不同的设备上尝试我的代码，我得到了不同的结果。例如，使用Galaxy Note3时，我设法用MediaRecorder.AudioSource.VOICE_RECOGNITION记录了原始的麦克风数据，而使用MediaRecorder.AudioSource.MIC时，我得到了经过滤波的波。另一方面，使用Galaxy s4时，我不得不反过来工作。我的错误在哪里？有没有一种独特的方法可以访问

浏览 217提问于2014-08-18得票数 0

回答已采纳

1回答

如何访问第二个麦克风android，如Galaxy 3

、

现在很多智能手机都有不止一个麦克风。一种用于语音输入，另一种用于减少环境噪声。我想知道如何才能独立访问这两个麦克风的信号？或者关掉其中一个麦克风？欢迎任何想法或评论。非常感谢。

浏览 1提问于2013-03-15得票数 8

回答已采纳

1回答

如何将Mel谱图分割成不同频率范围的子带？

、、、

我是非常新的音频信号处理，然而，我有这个任务，我被卡住了。我试图实现的是，假设我已经做了一个语音音频的特征提取使用梅尔谱图的频率范围内的梅尔规模(300赫兹，3400赫兹)。例如，我如何进一步将其分成5个不重叠的子带？波段1: 300,627 波段2: 628,1060 波段3: 1061,1633 波段4: 1634,2393 波段5: 2394,3400 我一直试图在任何地方找到一个实际实现的例子，但是我找不到一个。如果有人能给我一些建议或者引导我走向正确的方向，我将不胜感激。

浏览 6提问于2021-09-29得票数 0

回答已采纳

4回答