linux语音频谱_绘制语音频谱图的TSNE散点图_音乐频谱分析 linux - 腾讯云开发者社区

、、、

如何从我的语音记录中找到最小、最大、平均、标准开发音高？我使用AudioRecord录制我的声音。 frequency = 8000; channelConfiguration = AudioFormat.CHANNEL_CONFIGURATION_MONO; audioEncoding = AudioFormat.ENCODING_PCM_16BIT; recordInstance = new AudioRecord(MediaRecorder.AudioSource.MIC,frequency, channelConfiguration, audioEncoding, bufferSiz

浏览 3提问于2012-04-02得票数 5

3回答

如何在iphone中确定输入录音的频率？

、、、

我刚接触iphone开发，我正在研究iphone中的语音记录，我已经从.I下载了“在这里说话”示例程序。我想确定我的语音在iphone.Please guide me .Please help me out.Thanks中录制的频率。

浏览 2提问于2010-03-02得票数 2

2回答

比较android中的语音wav或语音标签(语音命令)接口

、、、、

我正在开发一个应用程序，我需要一些方法来比较两个声音是否匹配，我知道语音识别器是一种方法，但由于(我认为)它需要首先将语音翻译成字符串，它不会那么适合其他语言，除了由speech recognizer....any的想法支持的语言？就像过去的电话一样，声控标签只是将语音输入与之前设置过程中录制的语音进行比较

浏览 0提问于2011-02-09得票数 6

2回答

测量音频噪声水平

、

我正在尝试对音频流中存在的静电或噪声的量进行定性处理。流的正常内容是语音或音乐。我一直在尝试采用样本的stddev，这确实给了我一些关于语音与空通道噪声(即，高stddev通常表示声音或音乐) 想知道有没有人对此有什么建议。

浏览 1提问于2009-08-17得票数 4

回答已采纳

1回答

语音记录频谱图

、、、

我正在创建一个语音记录应用程序，其中我显示了一个分贝计。然而，我想包括一个语音谱图的线上的龙口述或谷歌搜索应用程序中发现。关于我在这方面可以从哪里开始的任何建议。当涉及到FFT或频谱分析时，我完全是一个笨蛋。期待您的建议。

浏览 0提问于2010-12-26得票数 2

回答已采纳

1回答

iOS safari浏览器中的录音质量差

、、、、

我试图理解safari (12.3.1)在浏览器中录制音频的局限性。这是因为我录制的任何语音--不管编解码器/容器是什么--的质量比通过本地ios应用程序录制的等效音频要低得多。无论编码器设置如何(如比特率/复杂度/采样/通道)，在safari (iphone8)中记录的Opus、wav和mp3文件似乎都具有一定的质量。但是，当在本地应用程序中录制语音时，我发现我可以产生持续良好的效果。 safari中的音频质量不受以下因素的影响:使用不同的javascript记录器(仅使用wav)和javascript编码器(opus和mp3)记录音频；清除浏览器缓存；从专用浏览器窗口重新加载js；切换M

浏览 1提问于2019-06-03得票数 0

回答已采纳

1回答

音频处理软件:提高可懂度

、

除了奥迪之外，还有什么软件可以进行音频增强？基本上，我对语音感兴趣。对背景噪声的清理可以很好的完成与奥迪，但还能做什么来提高语音理解，或建立说话人的身份？或者是为了洞察说话人的年龄或性别(更多的是法医学意义上的)？我可以是Linux，iOS或Windows，商业或开源。

浏览 0提问于2018-03-26得票数 2

4回答

Matlab:在一帧音频数据中查找主要频率

、、、

我是Matlab的新手，我正在尝试写一个简单的基于频率的语音检测算法。最终目标是在wav文件上运行脚本，并让它输出每个语音段的开始/结束时间。如果使用以下代码： fr = 128; [ audio, fs, nbits ] = wavread(audioPath); spectrogram(audio,fr,120,fr,fs,'yaxis') 我得到了一个有用的频率强度-时间图，如下所示：通过观察它，可以很容易地看出语音何时发生。我可以编写一个算法，通过查看每个x轴帧，找出哪些频率是主要的(具有最高强度)，测试主要频率以查看是否有足够的频率超过某个强度阈值(图中黄

浏览 29提问于2012-11-28得票数 2

1回答

VAD和说话人分割有什么区别？

、、、

我不确定我能区分和理解以下几个方面的区别： VAD (语音活动检测)和 Speaker Segmentation 我了解到： VAD -分割语音段或非语音段的音频扬声器分割-将音频分割成非语音片段和不同的扬声器例如： VAD = [not speech, speech, not speech, speech, not speech] Speaker Segmentation = [not speech, speech , not speech, speech A, speech B, not speech] 我说得对吗？

浏览 0提问于2023-04-03得票数 0

3回答

使用MFCC进行语音识别

、、、、

我目前正在使用傅里叶变换结合Keras进行语音识别(说话人识别)。我听说MFCC是语音识别的更好的选择，但我不确定如何使用它。我在python (3)中使用librosa来提取20个MFCC特征。我的问题是:我应该使用哪些MFCC功能来识别说话人？除此之外，我不确定如何实现这些功能。我要做的是获得必要的特征，并为神经网络做一个长向量输入。然而，也可以显示颜色，所以图像识别也是可能的，还是更多地针对语音，而不是说话人识别？简而言之，我不确定我应该从哪里开始，因为我在图像识别方面经验不是很丰富，也不知道从哪里开始。提前感谢！！

浏览 4提问于2018-12-04得票数 0

2回答

c#中的基频+语音检测

、、、

我正在试着通过麦克风的输入实时检测语音。我已经接受了输入，执行了快速傅立叶变换算法，并在dB中得到了结果。我有一个频域，一个时域和一个频谱图。我怎样才能得到基频？如果我得到了基本频率，我可以指定如果频率在特定的值之间，那么我们谈论的是语音吗？有没有其他方法来处理我已经拥有的东西呢？提前Tks

浏览 2提问于2009-10-23得票数 3

2回答

ActionScript语音识别库

、、

我在找ActionScript的语音识别库。我需要的软件能够只对简单的英语反应。Yes & No类型的响应。

浏览 0提问于2012-02-20得票数 4

回答已采纳

1回答

用移动设备创建GMS基站

、

我想建立自己的GSM网络(基站与移动设备相互连接)，并提供语音/短信服务。如下所示：https://evilsocket.net/2016/03/31/how-to-build-your-own-rogue-gsm-bts-for-fun-and-profit/ 我想在实验室里创建我的BTS站和设备，而不与外界连接。但如果我正确理解，在创建这样的BTS时，它将“自动”连接到外部世界(因此，我自己实验室中的设备将看到其他设备)，对吗？是否有可能建立这种与外部世界隔绝的网络？谢谢

浏览 0提问于2017-04-11得票数 2

回答已采纳

1回答

如何绘制语音样本的语调？

、、、、

我想做一个iOS应用程序，允许我用图形表示用户读入的音频样本的语调(他们的声音的音调的上升和下降)。语调在世界各地的各种语言中都非常重要，这是对语调和发音的一种尝试。我对语音/音频技术不是很精通，所以我需要什么？是否有随Cocoa-touch一起安装的库，使我能够从语音样本中访问所需的数据？我要捕捉的到底是什么？如果有人对我需要利用的技术有一个想法，我将非常感激在正确的方向上的一点。谢谢!

浏览 2提问于2012-08-30得票数 2

回答已采纳

1回答

如何验证混炼机设备和iPodEQ设备的AudioUnit性能

、、、

我想用AudioGraph来提高语音音质。现在，我已经合并了AUGraph来处理来自远程的音频数据，连接了节点: mixer节点--> iPodEQ节点--> I/O输出节点。远程音频是单声道的。我将本地输出设置为立体声通道，使用SpokenWord EQ模式的iPodEQ单元，以改善音效。我的问题是如何验证输出数据是立体声的，以及SpokenEQ模式是否设置成功？感谢您的阅读，希望您的帮助。

浏览 0提问于2013-01-29得票数 0

回答已采纳

1回答

AudioRecord同时播放音频访问输出回放数据。

、、、、

我正在我的应用程序中乱搞一个自定义的语音命令模型--我让它能够很好地记录和处理来自AudioRecord的输入音频，并通过文本到语音向用户提供反馈。我的一个问题是，我希望这个工作，即使是在音频播放-通过我自己的文本到讲话，或通过其他的东西在后台播放(例如音乐)。我意识到这将是一个不小的问题，但如果我能以某种方式访问音频输出数据(手机正在播放的内容)，并将其与我的麦克风输入数据相匹配，我想我至少可以调整我的模型，以提高我的结果。然而，基于，这听起来似乎是不可能的。两个问题： 1)我是否错过了通过android访问预期音频输出/回放数据的任何途径，或者android为解决这个问题提供的任何选

浏览 5提问于2018-10-27得票数 0

回答已采纳

2回答

如何使用Matlab计算声音强度？

、、

我正在寻找MATLAB中的一些函数，以便找出声音的一些参数，如声强、密度、频率、时间和频谱特性。我知道如何使用'audiorecorder‘作为一个功能来记录采样的声音，还有'getaudio'，为了绘制it.But，我需要实现上面提到的采样录制的语音的参数。如果有人能帮助我，我将非常感谢。

浏览 2提问于2011-12-22得票数 1

1回答

LP阶数和采样频率对语音共振峰的影响

、、、

我一直在尝试理解语音的线性预测。我知道LP预测器的阶数p应该是(Fs/1000)+2。对于8 4KHz的语音信号，LP谱的范围将从0到4 4KHz，每个共振峰将有4到5个峰值。这是否意味着，在16 8KHz语音信号的情况下，LP频谱的范围将从0到8 8KHz，并且将有8个共振峰，因为有8个峰值？我的第二个疑问是，在8 4KHz语音信号的情况下，共振峰频率的值将仅限于4 4KHz，而对于16 4KHz，我们将获得更高的共振峰频率值？我在理解中遗漏了什么？

浏览 56提问于2020-08-24得票数 0

1回答

Pocketsphinx解码器添加了自己的单词

、、、

我使用的是Ubuntu 12.04、Python 2.7和PocketSphinx。我用online LM tool制作了一个自定义的dictionary，language model。使用pocketsphinx_continous对语音进行解码可以达到100%的准确率。但是在Python中使用PyAudio录制声音可以识别文本，但会在主上下文中添加'A‘和' and’，如下图所示如何治好它？

浏览 6提问于2013-04-15得票数 0

回答已采纳

1回答

在线视听数据的音频内容分析

、、

我想从事一个项目，在这个项目中，我必须根据在线视听数据的音频内容对其进行分割和分类，即音频数据的不同部分将根据其音频内容被分割和分类为静音、音乐、语音、speech+background音乐等。我知道，我必须从视听数据中获取音频部分，并提取零交叉、谱峰等特征，并找出片段边界，以便对音频数据进行分割。但我在一开始就迷失了。我不知道如何开始这个项目。该软件输出的是不同类别的音像数据片段，如沉默、语音、音乐等。如果有人让我知道会很有帮助为了这个目的，哪一种编程语言比较方便？我应该遵循哪些步骤来开发这个软件？我没有数字信号处理的背景。如果我能得到一些指导

浏览 4提问于2012-02-04得票数 0

2回答

FFT的窗口大小与数据长度

、、、

我正在尝试对流音频数据进行快速频谱分析，以捕获元音(类似于JLip-sync)。使用PyAudio捕获小块(1024)的语音数据，持续时间较短(0.0625秒)。使用numpy.fft进行分析，并使用numpy.hanning窗口消除渗漏。我使用4096*4作为采样率(不是44100或22050，也可以讨论；4096*4最接近22050)。考虑到我感兴趣的频率(从300 Hz到3000 Hz)，如何使用我正在寻找的数据长度和最小/最大频率来计算理想的窗口大小？谢谢。卡迪尔

浏览 1提问于2011-04-07得票数 5

1回答

检测SerialPort输入中的暂停

、、

在我的应用程序中，任何电话都可以通过语音连接到我的3G USB调制解调器，并立即接上电话。它通过串口以PCM的形式接收音频(8000个样本，16位，单)，并使用微软的语音合成器与呼叫者进行回话。问题是，只有当调用者停止说话时，应用程序才应该回话。我怎么能察觉到呢？我试着实现一个3秒定时器，当从串口接收到数据时，它会重新设置自己，所以当定时器“滴答”时，应该意味着调用者沉默了3秒。但不是这样的。我做错什么了？ private void DataRecdFromSerial(object sender, SerialDataReceivedEventArgs e) { say.Sto

浏览 1提问于2014-03-19得票数 0

回答已采纳

3回答

如何将ogg文件转换为电报语音格式？

、

我试图通过电报机器人中的SendVoice方法发送语音消息，但它将语音作为文档文件(而不是播放)发送。由ffmpeg转换为opus编码的ogg文件。 https://api.telegram.org/bot<token>/sendVoice?chat_id=x&voice=http://music-farsi.ir/ogg/voice.ogg 我的ogg文件和电报语音信息有什么不同？我的ogg文件：

浏览 0提问于2017-06-18得票数 10

回答已采纳

2回答

如何从wave文件中获取音频数据？

、、、

我想用ruby构建一个语音识别引擎。我知道我永远到不了那里，只是为了好玩。我需要获取存储在wav文件中的声音频率的数据，以便与我已经拥有的想要识别的不同声音的数据进行比较。我会用ruby写代码，但我不认为有任何用ruby写的库，如果有的话，它们会太慢了。ruby的好处是我可以通过IronRuby使用.net的库，或者通过Jruby使用Java库。如何获取频率数据？

浏览 2提问于2010-04-24得票数 3

回答已采纳

2回答

Android通话质量

、、

在Android中可以获得或测量语音通话期间的通话质量吗？理想的做法是知道呼叫期间按位置的质量音频分布。

浏览 4提问于2011-05-19得票数 1

3回答

在iOS中比较两种音频(本地存储的预先录制的语音命令和应用程序中的麦克风录音)

、、、、

在应用程序中，我必须比较从以前本地存储的语音命令的实时录音，如果它匹配(不仅文本，而且识别的人的声音)，然后执行必要的行动。 1-匹配来自同一个人的语音命令. 2-匹配命令的文本. 我申请了许多方法，但没有一个是按照我的期望工作的。 First:将语音用于文本库，如、，但这些库只从语音转换文本。结果:失败作为我的期望秒：(音频手指打印) 在这个库中，我记录了一个命令，并将该mp3file存储在acrcloud服务器上，并与实时记录(由我说)匹配，但当我播放上传到acrcloud服务器的相同记录(录制的MP3文件)时，它就匹配了。结果:失败作为我的期望在这个库中，它就像语音到文本，我在

浏览 6提问于2016-07-27得票数 13

3回答

自动调谐/声码器背后的理论

、、

我一直在网上寻找有关声码器或自动调谐的资料，但没有得到任何令人满意的答案。有人能用简单的方式解释一下如何使用载体声音文件自动调谐给定的声音文件吗？(我熟悉ffts，窗口，重叠等，我只是不明白当我们有载体的ffts和需要调制的原始声音文件时我们该做什么) 编辑:在看了很多遍之后，我终于知道我要找的是什么了--一个声码器。它的工作方式是，它需要两个输入，一个是语音信号，另一个是频率丰富的音乐信号。音乐信号被语音信号的包络调制，并且输出信号听起来像音乐音调中的语音歌唱。谢谢你的帮忙!

浏览 0提问于2012-05-24得票数 2

1回答

为什么在最近的神经网络语音识别系统中使用频谱图？

、、

为什么在最近的神经网络语音识别系统()中使用频谱图，而不是使用神经网络层学习频谱图转换？

浏览 0提问于2016-07-21得票数 1

1回答

rgb矩阵上的Google Assistant与Raspberry Pi

、、、、

首先，我想说明我是一个初学者:这几天我开始做一个项目，这个项目似乎比我预想的要难得多。整个项目是将谷歌助手安装在我的覆盆子pi 1 B+上，并在32x128px的rgb面板上显示音频输出(谷歌助手语音)的频谱分析仪。为了让树莓派与面板通信，我使用Adafruit RGB矩阵+实时时钟帽。关于google assitant有一个很长的过程，我完成了，但这并不是最难的部分。最大的问题是找到如何读取助理输出语音的频谱分析仪并将其显示在面板上的方法。(该面板可以使用Adafruit创建的模块RGB-MATRIX )。有什么想法吗？提前感谢所有愿意回答的人。马可附注:我唯一的知识是python

浏览 27提问于2020-04-06得票数 0

回答已采纳

1回答

Microsoft语音识别:通配符空白内容

、

在我的语音引擎中，我激活/取消激活多个语法。在一个特殊的步骤，我想运行一个语法，只有捕捉音频的下一个给定的句子，根据引擎的属性。但是为了开始/停止匹配，我假设引擎需要“单词”。所以我不知道怎么做？ (下面的解释:我的应用程序使用google将所有垃圾音频转换为文本，因为听写太糟糕了，Kinect上也没有)

浏览 1提问于2014-01-23得票数 2

回答已采纳

2回答

Matlab:如何找到语音的基频

、、

我对Matlab和语音处理也很陌生。我想找出语音信号的基本频率来确定说话人的性别。我在10毫秒内分析了信号中的沉默。在此之后，我使用以下代码获得fft： abs(fft(input_signal_without_silences)) 我对语音信号和它的fft的描述如下：现在，我想找出基本频率，但我不知道我需要采取哪些步骤来做到这一点。还是我误解了这个概念？据我所知，有一些方法，比如自相关，由于我对语音处理和matlab都不熟悉，所以非常感谢您的帮助和建议。

浏览 6提问于2015-06-06得票数 0

1回答

将音节录音仅修剪到元音部分

、、、

对于一个中文学习应用程序，我们让用户记录一个音节，然后我们使用语音识别来评估发音是否正确。每个汉语音节都可以用不同的音调(音高差异)发音，这些音调具有不同的含义。我们发现Google Translate和Swift Speech framework都不够准确，无法确定发音的语气是否正确。因此，我们使用从音频中检测音调，以在语音识别应用编程接口之外进行评估。挑战在于，在汉语中，声调只在音节的元音中发音。因此，如果用户只发一个元音，例如"a“，那么贝多芬就能很好地工作。但是在像"san“这样的音节中，辅音"s”和"n“会使结果变得模糊。因此，我正在寻找一种方法

浏览 4提问于2021-09-29得票数 0

2回答

自动同步歌词和歌曲- Java

、、、

我正在尝试创建一个安卓应用程序，它将从mp3的ID3V2标签中获取歌词。我的问题是，是否有可能在播放歌曲时自动突出歌词？比如使用语音处理之类的。我已经研究过以前类似的问题，但它们都需要手动输入。需要尽快得到反馈。谢谢。

浏览 5提问于2012-08-13得票数 0

5回答

如何比较iOS上的两个语音样本？

、、、

首先，我想说的是，我的问题不是关于语音识别的“经典”定义。从以下方面看，我们所要做的有些不同：用户记录他的命令稍后，当用户说出预先录制的命令时，就会发生某种操作. 例如，我记录了一个呼叫我妈妈的语音命令，所以我点击她并说“妈妈”。然后当我用这个程序说“妈妈”的时候，它会自动给她打电话。如何将语音命令与保存的语音示例进行比较？编辑:我们不需要任何“文字到语音”的能力，仅仅是声音信号的比较。显然，我们正在寻找某种现成的产品或框架。

浏览 3提问于2011-04-05得票数 5

2回答

使用机器学习创建语音识别系统

、

作为机器学习的一个教育项目，我正在考虑从头开始创建一个语音识别系统。它应该能够从之前经过语音训练的说话人的声音中识别出他/她。我应该采取什么方法来应对这一挑战？具体地说，这样的系统如何在高级别上工作？如有任何建议，我们将不胜感激:)

浏览 1提问于2013-02-28得票数 0

回答已采纳

2回答

检查麦克风是否静音

在录制用户语音时，我想知道他/她何时停止通话以结束录制并将音频文件发送到google speech recognition API。我在这里找到了这个线程，并尝试使用它的解决方案，但我总是从频谱数据的平均值5.004574E-08中获得相同的值：下面是我用来获取GetSpectrumData值的代码： public void StartRecordingSpeech() { //If there is a microphone if (micConnected) { if (!Microphone.IsReco

浏览 0提问于2019-09-19得票数 0

3回答

比较录音

、、、、

我有5个记录的wav文件。我想比较新输入的录音和这些文件，并确定它最相似的一个。在最后一个产品中，我需要在Linux上用C++实现它，但现在我正在Matlab中进行实验。我可以很容易地看到FFT图。但我不知道怎么比较他们。如何计算两个FFT图的相似性？编辑：录音中只有语音。实际上，我正试图找出几家电信公司的答录机的响应。这足以区分两条信息：“目前无法联系到这个人”和“这个号码不再使用”

浏览 2提问于2011-08-16得票数 8

1回答

华为GSM/UMTS usb加密狗的语音命令？

、、、、

我正在尝试了解如何在linux中使用华为E173加密狗的语音功能。我的加密狗是支持语音的(语音可以在windows应用程序中使用)。我可以使用AT^CVOICE?在linux中检查语音激活。命令。这告诉我应该如何组织原始音频流。从问题中，我了解到这个想法是在ttyUSB2上发送命令，同时在ttyUSB1上传递原始音频数据。我也理解堆栈溢出用户在Ubuntu中以这种方式工作的语音，所以这应该是正确的方法。对我来说，完全不清楚的是如何拨出语音呼叫，检查是否有人在呼叫，以及如何接听语音呼叫。有没有人能提供一些线索或指点？谢谢!

浏览 5提问于2013-05-02得票数 7

1回答

如何从麦克风输入读取实时频率？

、、、、

我想实时获取从麦克风获取的语音输入的频率。我对此进行了搜索，并了解了FFT和另外2，3种算法，但实现这些算法似乎非常复杂。我正在寻找一个C#库，它使我能够简单地将频率输入到数组中，而不必实现它。

浏览 2提问于2017-07-25得票数 4

回答已采纳

2回答

统一麦克风检查是否静音

、、、

我们采用统一录音的标准方法： _sendingClip = Microphone.Start(_device, true, 10, 16000); 其中_sendingClip是AudioClip，_device是设备名称。我想知道用户什么时候停止说话，这可以在2秒甚至10秒后发生。我找过不同的来源来找答案，但却找不到答案： (但这个已经超过5年了) 这个想法是，当用户停止说话时，音频被发送到语音识别服务器，没有延迟，并且当用户还在说话时，音频不会被切断。解决方案不需要采用代码格式。去哪儿找个大致的方向会很好。

浏览 9提问于2016-12-01得票数 3

回答已采纳

1回答

如何在Linux内核中注册UDP端口并为该端口范围创建钩子

、、、、

我是Linux内核的新手。我正在编写内核模块，这个模块处理多个UDP语音流。对于这个模块，我希望在内核中注册多个不同语音流的UDP端口，以便其他UDP通信量不能使用这些UDP端口。根据我的理解，创建套接字和绑定是一种方法。我还想为这些UDP语音端口创建一个钩子函数，这样每当接收到语音数据包时，它都会调用我的钩子函数。我有几个问题：除了创建套接字和绑定套接字之外，是否还有更好的方法在Linux内核中注册多个UDP端口？如何创建钩子函数，并为这些已注册的多个UDP语音端口调用它？

浏览 8提问于2017-10-10得票数 0

1回答

MATLAB -将训练数据转换为语谱图的麻烦

、、、

我是一名学生，几个月前刚接触信号处理。我为我的项目选择了“语音识别的一种新颖的模糊方法”(你可以在谷歌上搜索下载版本)。我在将训练数据转换为通过mel过滤器传递的频谱图时遇到了一些困难。我使用作为我的mel-filterbank，当然有一些小的修改。然后我写了这个简单的代码来制作我的训练数据的谱图： p =25; fl =0.0; fh =0.5; w ='hty'; [a,fs]=wavread('a.wav'); %you can simply record a sound and name it a.wav, other param wi

浏览 0提问于2011-09-20得票数 0

1回答

用于MSX标准的Z80 CPU交叉汇编程序

、

我正试图为使用Z80 CPU的80年代MSX标准编写程序。我的问题是，我似乎找不到一个跨汇编程序为这个CPU使用MSX标准。是否有用于Linux的Z80 CPU MSX标准交叉汇编程序？ P.S:我正在运行Linux 17.3 64位。

浏览 0提问于2016-12-04得票数 2

回答已采纳

1回答

Linux > Python > TTS，STT &语音重命名

、、、

文本到语音我一直试图在windows和Linux环境中运行pyttsx . Linux环境： import pyttsx engine = pyttsx.init() python在执行第一行之后就挂起了。我通过在交互式shell提示符中运行这两行来验证上述语句。 windows环境： import pyttsx engine = pyttsx.init() engine.say('Sally sells seashells by the seashore.') engine.say('The quick brown fox jumped over the lazy

浏览 18提问于2011-06-17得票数 3

1回答

哪个软件可以转换语音共振峰？

、、、

Melodyne做的正是我所需要的，但它只是UI。我在寻找一种通过编程来转换语音尖峰的方法。弗姆佩格，索克斯，普拉特？我该怎么做？在语音科学和语音学中，共振峰 (语音术语)是由人类声道的声学共振产生的频谱整形。你在找什么样的申请？命令行或python包。您希望应用程序在哪个操作系统上运行？Linux 你有什么预算?0 应用程序必须具有哪些特性？改变语音峰的能力。

浏览 0提问于2020-04-03得票数 0

回答已采纳

1回答

用于读取/写入大量小文件的集群文件系统选择

、、、、

我正在为我的实验室建立一个小型Linux集群。目前，我们有一个作业提交的登录节点和3个计算节点，它们通过Gigabit连接(遗憾的是没有infiniband)。最初，我只是使用NFS为集群用户导出共享存储(主文件夹)。但很快我们发现NFS在实际有效载荷下表现不佳。事实证明，我的集群用户在共享存储中读写小型图片文件(其中一个是<100 in )的GBs是非常常见的。NFS对于小文件IO的性能非常差。对于编写小文件，我对NFS/CIFS/SSHFS性能进行了简单的测试。在每个文件系统上卸载20000个小文件(总计约600 on )的时间是： CIFS: 25~30 SSHFS: 45~

浏览 0提问于2017-04-08得票数 2

1回答

在scipy中重现sox谱图

、、、

例如，我有一个带有语音的wav文件。我可以用sox创建很好的谱图可视化： wget https://google.github.io/tacotron/publications/tacotron2/demos/romance_gt.wav sox romance_gt.wav -n spectrogram -o spectrogram.png ? 我如何在python中重现这个谱图？以下是使用scipy.signal.spectrogram的示例 input_file = 'temp/romance_gt.wav' fs, x = wavfile.read(inp

浏览 19提问于2019-06-05得票数 3

回答已采纳

3回答

语音识别有linux SDK吗？

、

语音识别有linux SDK吗？多谢！

浏览 573提问于2018-01-15

12回答

需要用于Linux的文本到语音转换和语音识别工具

、、

我计划为Linux编写一个使用文本到语音和语音识别的程序。最好的工具/库是什么？为了能够使用更好的工具，我应该使用Windows吗？这些工具需要易于从控制台或C程序调用。

浏览 6提问于2009-05-18得票数 11

回答已采纳

4回答

如何识别相似的发音-技巧

、、

我想创建一个声音识别系统。该系统一旦经过训练，应该能够识别相似的声音。我几乎听不到像淋浴、冲马桶、火警这样的声音。我会把系统安装在公寓里，然后用这些声音来训练它。然后，当系统安装在不同的单位时，如果淋浴、冲水马桶和火警报警器的声音频谱略有不同，则该系统应该能够识别这些声音。这有可能吗？可以使用哪些技术？我在想语音识别技术，比如隐马尔可夫模型，神经网络？

浏览 0提问于2012-04-23得票数 0