使用librosa将语音A转换为语音B

、、、、

我是librosa和voice/sound分析的新手。我已经在SO和google上搜索了这个直接的问题，但没有得到一个可以理解的答案。假设有两个声音A和B。我想要将voice A转换为voice B。考虑到这两种声音，有没有可能在A上做一些听起来像B的事情？

浏览 46提问于2020-11-27得票数 0

回答已采纳

3回答

检测音频文件中是否有python语音

、

我对音频检测没有太多的了解，我今天才开始学习它，偶然发现了webrtcvad(这感觉很糟糕:'( )和LibROSA。我要做的任务是，给定一个音频文件(可以是空的，也可以是有噪声但没有语音的)，我必须检测它是否包含任何语音。你知道我怎么才能让它起步吗？任何帮助都将不胜感激。提前谢谢。

浏览 2提问于2020-06-27得票数 1

1回答

我被要求为一个转换硕士课程建立一个语音识别系统，这有点超出了我的能力。我需要准备wav文件，以便用RNN进行分析，但是处理部分有问题。我尝试使用thinkdsp将wav文件转换为大约23 ms时间块的谱图，但无法了解如何使用输出： times: [0.011564625850340135, 0.023174603174603174,thinkdsp.Spectrum object at 0x10ba21080>, 0.13927437641723356: <thinkdsp.Spectrum

浏览 4提问于2017-07-22得票数 0

回答已采纳

1回答

语音情感识别中的MFCC ( Mel频率系数平均值对性能的影响)

、、、、

我正在做一个项目(从语音或语音音调中检测情感)，我正在使用MFCC，我在一定程度上理解了这一点，并且知道它们在语音方面是非常重要的。这是我从librosa使用的代码，用于从我的音频文件中提取特征，然后在神经网络中用于培训：mfccs = np.mean(librosa.feature.mfcc(y=

浏览 1提问于2021-02-11得票数 1

回答已采纳

5回答

ModuleNotFoundError:没有名为'librosa‘的模块

、、

目前我正在从事语音识别的工作，我想使用Librosa库。我在ubuntu上使用以下命令安装librosa：但是当我运行代码时，我得到了以下错误：<ipython-input-9-989066361697> in <module> --

浏览 88提问于2020-06-30得票数 3

2回答

使用librosa函数将语谱图转换为音频

、、、

我正在从事语音合成工作，我已经使用librosa构建了频谱图。当我想要将频谱图转换为音频以保存为wav文件时，它会产生问题。我使用这个函数来获取音频文件的频谱图。 librosa.feature.melspectrogram 这是我用来将语谱图转换成音频的函数。ModuleNotFoundError: No module named 'librosa.feature.inverse' 这就是我使用libro

浏览 284提问于2019-09-17得票数 1

回答已采纳

1回答

语音数据集中的基音检测

、

为了识别不同的语音片段是否相同，我提取了多个特征，如MFCC、节奏、色度、拍次、和声、敲击、旋律谱等等。现在我还想找到语音剪辑的音高，以找到我正在使用的代码：y,sr = librosa.load('E:/Audio_clip/cant.wav')#print(S) pitch, mag = librosa.piptrack(y=y, sr=

浏览 5提问于2018-01-10得票数 1

1回答

pcm文件转成文字用哪个sdk或api呢？

、、

我想将pcm格式的语音文件（播放时长大概10分钟以内），需要用腾讯的哪个产品呢？谢谢 :-)

浏览 385提问于2019-02-02

1回答

用FFT和多项式插值改变人类语音的旋律

、、、、

录制到wav)，这样我就可以得到一个旋律模式，可以应用于任何其他录制/合成的语音(基本上F0在时间上是如何变化的)。我对整个“嘿？”语音样本进行了快速傅立叶变换，得到了频域数据(请不要介意y轴单元，我还没有将它们归一化) 到目前一切尚好。现在，如果我取下这些峰值，从它们得到一个插值函数，并将函数应用到另一个语音样本上(当然，这也是语音样本的一部分)，然后执行反相fft I不会得到我想要的，

浏览 4提问于2020-08-10得票数 3

回答已采纳

2回答

.NET:如何将mp3或wav文件转换为.flac

、、、

我需要在c#中编写一个实用程序，使用谷歌语音Api将语音从音频文件转换为文本。据我所知，谷歌只接受这个接口的.flac格式。不幸的是，我有.wav和.mp3音频文件。所以我试着找出是否有办法在.NET中将mp3转换为flac。我查看了NAudio，但它似乎不能处理flac文件。

浏览 0提问于2013-07-14得票数 6

回答已采纳

1回答

将mel谱图归一化为单位峰值振幅？

、、、、

我对python和librosa都是新手。我正在尝试对语音识别器使用以下方法：import librosaimport numpy as np normalizedy = librosa.util.normalize(y) stft = librosa.core.stft(norm

浏览 0提问于2019-01-30得票数 2

3回答

在python中使用google语音识别时出现‘音频数据必须是音频数据’错误

、、、、

我正在尝试用python加载音频文件，并使用google语音识别对其进行处理问题是，与C++不同，python不显示数据类型、类，也不允许您通过创建新对象和重新打包数据来访问内存来在一种数据类型和另一种数据类型之间进行转换我不明白在python中怎么可能从一种数据类型转换成另一种数据类型有问题的代码如下： import speech_recognition as spr audio,sr = librosa.load('sample_data/metal.mp3&#

浏览 79提问于2020-03-27得票数 4

1回答

在keras中制作音频模型

、

我试图用这样的方式训练keras模型，即输入，即音频'a‘被转换成输出，它将是音频'b’。

浏览 2提问于2020-05-22得票数 2

回答已采纳

1回答

如何将mfcc向量与标注标签相结合，传递给神经网络

、、、、

使用librosa，我为音频文件创建了mfcc，如下所示：y, sr = librosa.load('myfile.wav')print sr我还有一个文本文件，它包含与音频对应的手动注解、停止、标记，如下所示： 2.04.0 sound26.08.0 sound1 问:如何将由libros

浏览 0提问于2018-01-22得票数 4

回答已采纳

3回答

如何使用tensorflow-wavenet

我正在尝试使用程序进行文本到语音。这些步骤如下：完成此操作后，如何生成文本文件的语音读取

浏览 7提问于2017-01-16得票数 5

1回答

Librosa谱图参数

、、、

我想使用Librosa库来创建光谱图。我想使用librosa.core.stft函数进行语音处理。他们建议在我的情况下使用值为512的参数n_fft。我想知道的是，我应该为其他参数使用什么值才能获得最佳结果？我的意思是像hop_length和window_length这样的参数？

浏览 12提问于2020-03-12得票数 0

2回答

NameError:未定义名称“librosa”

、、、、

我正在使用Wav2Vec XLSR模型进行阿拉伯语语音识别。在微调模型的同时，它给出了下图所示的错误。我不明白librosa有什么问题，它已经安装好了！📷

浏览 0提问于2022-05-05得票数 0

回答已采纳

1回答

Flac转换器Objective-C？

、、、

有人知道如何在Objective-C中使用FFmpeg for iOS将.mp3转换为.flac吗？或者其他要转换的解决方案？我想使用谷歌的语音识别应用程序接口，当然他们只支持.flac音频。

浏览 0提问于2012-01-04得票数 5

3回答

使用MFCC进行语音识别

、、、、

我目前正在使用傅里叶变换结合Keras进行语音识别(说话人识别)。我听说MFCC是语音识别的更好的选择，但我不确定如何使用它。除此之外，我不确定如何实现这些功能。我要做的是获得必要的特征，并为神经网络做一个长向量输入。然而，也可以显示颜色，所以图像识别也是可能的，还是更多地针对语音，而不是说话人识别？简而言之，我不确定我应该从

浏览 4提问于2018-12-04得票数 0

1回答

自定义文本到语音转换中的语音

、、

有没有什么开源项目或库( java或c++)可以用来将文本转换为用户语音。我的意思是，用户可以训练系统在将文本转换为语音时使用特定的语音，而不是应用程序附带的语音。

浏览 2提问于2014-02-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

检测音频文件中是否有python语音

如何从.wav文件中准备2d光谱图以输入到神经网络中？

语音情感识别中的MFCC ( Mel频率系数平均值对性能的影响)

ModuleNotFoundError:没有名为'librosa‘的模块

使用librosa函数将语谱图转换为音频

语音数据集中的基音检测

pcm文件转成文字用哪个sdk或api呢？

用FFT和多项式插值改变人类语音的旋律

.NET:如何将mp3或wav文件转换为.flac

将mel谱图归一化为单位峰值振幅？

在python中使用google语音识别时出现‘音频数据必须是音频数据’错误

在keras中制作音频模型

如何将mfcc向量与标注标签相结合，传递给神经网络

如何使用tensorflow-wavenet

Librosa谱图参数

NameError:未定义名称“librosa”

Flac转换器Objective-C？

使用MFCC进行语音识别

自定义文本到语音转换中的语音

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐