为什么最高的FFT峰值不是乐音的基频？

在快速傅里叶变换（FFT）的分析中，最高的峰值通常对应于信号中最强的频率成分，但这并不总是乐音的基频。这是因为乐音的频谱通常包含基频及其谐波成分，而谐波成分可能由于共振、声源特性等原因在FFT结果中表现出比基频更高的幅度。以下是相关介绍：

基本原理

FFT概述：FFT是一种将时域信号转换为频域信号的方法，通过分解信号为不同频率的成分来分析其频率特性。
基频与谐波：乐音的基频是最低的频率成分，决定了音符的音高，而谐波是基频的整数倍，它们共同构成了乐音的音色。

为什么最高的FFT峰值不是乐音的基频

谐波成分的影响：乐音中的谐波成分可能比基频更强，尤其是在某些乐器或声音效果中。这些谐波成分在FFT分析中可能会产生更高的峰值。
信号的复杂性：音乐信号是复杂的复合波形，包含多个频率成分，这些成分的相互作用可能导致基频在FFT结果中不是唯一的最高点。

如何准确提取基频

峰值检测与频率计算：通过寻找FFT结果中的最大峰值，并计算其对应的频率，可以估算出乐音的基频。这通常涉及对FFT结果进行峰值检测和频率轴的计算。
综合考虑多个频率成分：为了准确确定乐音的基频，需要综合考虑FFT结果中的多个频率成分，并进行音频信号处理和分析。

通过上述方法，可以更准确地识别和分析乐音的基频及其谐波成分，从而更好地理解和处理音乐信号。

相关·内容

语音合成-声学概念和变声变调

声学概念声音是靠波来传播的，区别任何的声音需要依据三个来区分：响度、音高和音色响度音高:声音具有确定的音高，声音就可以使空气以笃定的方式运行。低音就是频率低。...一个乐音频率是另外一个乐音的频率的2倍，我就就称为比它高八度，声音的震动频率=音源的振动频率=鼓膜的震动频率。...耳朵最低频率：16~20周/秒，最高20000周/秒改变音源的质量也可以改变频率音色傅里叶分析：把多种波看成由很多纯音组成的波的方法音高是由基频决定的。谐波：附加的纯音是谐波。...频谱：描述各种波的振幅的大小的图叫做频谱图，这在声学中是相当的重要的。...功率：声音的功率与方均根振幅成正比。基频：一个复合波重复的基频，也是各个组元频率的最大公因子。具有这个频率的组元很有可能有很大的振幅。谐波：是基频的整数倍的波。

1.2K1 0

python 和linux环境下：音频处理变频变调的方法和框架

前戏——音乐基础声音是靠波来传播的，区别任何的声音需要依据三个来区分：响度、音高和音色响度音高:声音具有确定的音高，声音就可以使空气以笃定的方式运行。低音就是频率低。...一个乐音频率是另外一个乐音的频率的2倍，我就就称为比它高八度，声音的震动频率=音源的振动频率=鼓膜的震动频率。...耳朵最低频率：16~20周/秒，最高20000周/秒改变音源的质量也可以改变频率音色傅里叶分析：把多种波看成由很多纯音组成的波的方法音高是由基频决定的。谐波：附加的纯音是谐波。...频谱：描述各种波的振幅的大小的图叫做频谱图，这在声学中是相当的重要的。...功率：声音的功率与方均根振幅成正比。基频：一个复合波重复的基频，也是各个组元频率的最大公因子。具有这个频率的组元很有可能有很大的振幅。谐波：是基频的整数倍的波。

8732 0

为什么 StringBuilder 不是线程安全的？

我：StringBuilder不是线程安全的，StringBuffer是线程安全的面试官：那StringBuilder不安全的点在哪儿？我：。。。...（哑巴了）在这之前我只记住了StringBuilder不是线程安全的，StringBuffer是线程安全的这个结论，至于StringBuilder为什么不安全从来没有去想过。...我们看到输出了“9326”，小于预期的10000，并且还抛出了一个ArrayIndexOutOfBoundsException异常（异常不是必现）。...，直接看第七行，count += len不是一个原子操作。...这就是为什么测试代码输出的值要比10000小的原因。 2、为什么会抛出ArrayIndexOutOfBoundsException异常。

5962 0

为什么 StringBuilder 不是线程安全的？

5802 0

为什么 StringBuilder 不是线程安全的？

我：StringBuilder不是线程安全的，StringBuffer是线程安全的面试官：那StringBuilder不安全的点在哪儿？我：。。。...（哑巴了）在这之前我只记住了StringBuilder不是线程安全的，StringBuffer是线程安全的这个结论，至于StringBuilder为什么不安全从来没有去想过。...我们看到输出了“9326”，小于预期的10000，并且还抛出了一个ArrayIndexOutOfBoundsException异常（异常不是必现）。...我们先不管代码的第五行和第六行干了什么，直接看第七行，count += len不是一个原子操作。...这就是为什么测试代码输出的值要比10000小的原因。 2、为什么会抛出ArrayIndexOutOfBoundsException异常。

5303 0

为什么 StringBuilder 不是线程安全的？

引言你是不是遇到过这种问题： ❝ 面试官：StringBuilder 和 StringBuffer 的区别在哪？...我：StringBuilder 不是线程安全的，StringBuffer 是线程安全的面试官：那 StringBuilder 不安全的点在哪儿？我：。。。...（哑巴了） ❞ 在这之前我只记住了 StringBuilder 不是线程安全的，StringBuffer 是线程安全的这个结论，至于 StringBuilder 为什么不安全从来没有去想过。...，而不是 12。...这就是为什么测试代码输出的值要比 10000 小的原因。 2、为什么会抛出 ArrayIndexOutOfBoundsException 异常。

3722 0

为什么Adam 不是默认的优化算法?

由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。...为了充分理解这一说法，我们先看一看ADAM和SGD的优化算法的利弊。传统的梯度下降是用于优化深度学习网络的最常见方法。...Adam的优化方法根据对梯度的一阶和二阶的估计来计算不同参数的个体自适应学习率。它结合了RMSProp和AdaGrad的优点，对不同的参数计算个别的自适应的学习率。...上图来自cs231n，根据上面的描述Adam能迅速收敛到一个“尖锐的最小值”，而SGD计算时间长步数多，能够收敛到一个“平坦的最小值”，并且测试数据上表现良好。为什么ADAM不是默认优化算法呢?...但是，本文这并不是否定自适应梯度方法在神经网络框架中的学习参数的贡献。而是希望能够在使用Adam的同时实验SGD和其他非自适应梯度方法，因为盲目地将Adam设置为默认优化算法可能不是最好的方法。

3901 0

声音的表示（2）：作为音视频开发，你真的了解声音吗？丨音视频基础

此外，心理物理学的研究表明，人对声音强弱的感觉并不是与声强成正比，而是与其对数成正比的，所以我们引入『声强级』来表示声强。...虽然声强在理论上可以客观衡量在某一点上的声波振幅，还可以通过测量得出其数值，但并不是一个在日常工作中经常用来阐述声音振幅的量。...那么怎么理解声音的音色呢？现实中声音的波形绝大多数都不是简单的正弦波，而是一种复杂的波。...这种特定的比例，赋予每种声音特色，这就是音色。如果没有谐波成分，单纯的基频正弦信号是毫无音乐感的。因此，乐器乐音的频率范围包括基频和谐波。上一节讲到的声音音调的高低是由基音对应的基频决定的。...这就是为什么同唱一个音调，不同人的音色截然不同的根本原因：他们只是基频相同，谐波是截然不同的。所以，声音的音色决定于谐波频谱，也可以说是声音的波形所确定的。

9594 0

为什么说你的数据不是大数据？

这种想法是不对的，我们从很早以前就已经有海量的数据了，那时候甚至还没有大数据的概念。那么大数据究竟是从哪里来的呢？为什么我们需要大数据呢？...你只有在想要分析用户的行为时，才会大量收集这样的数据。而现在的情况是，存储这些数据的成本是比较低的，而且你收集越多的数据，通过比对不同的趋势，你就可能获得更多的价值。...也就是说，大数据并不是你频繁访问的数据，除了作为分析之用，甚至你从来不会去用到它。事实上，除了分析之外，我们可以把大数据“冷冻”起来。...最终的结果也就可想而知。不要轻视其他数据的价值现在，你需要从大数据的狂热中退一步思考，你现在最重要的数据也许并不是那些大数据，而是我们所说的热数据。...记住，大数据的最佳实践并不适合这些数据。你的数据也许这是一些重要的有价值的数据，它们并不是大数据。

8519 0

为什么说你的数据不是大数据？

这种想法是不对的，我们从很早以前就已经有海量的数据了，那时候甚至还没有大数据的概念。那么大数据究竟是从哪里来的呢？为什么我们需要大数据呢？...你只有在想要分析用户的行为时，才会大量收集这样的数据。而现在的情况是，存储这些数据的成本是比较低的，而且你收集越多的数据，通过比对不同的趋势，你就可能获得更多的价值。...也就是说，大数据并不是你频繁访问的数据，除了作为分析之用，甚至你从来不会去用到它。事实上，除了分析之外，我们可以把大数据“冷冻”起来。...不要轻视其他数据的价值现在，你需要从大数据的狂热中退一步思考，你现在最重要的数据也许并不是那些大数据，而是我们所说的热数据。...记住，大数据的最佳实践并不适合这些数据。你的数据也许这是一些重要的有价值的数据，它们并不是大数据。

7335 0

语音识别流程梳理

STFT将时域信号变成频域信号，即使在SNR到0dB时，一些频带的长时包络还是可以区分语音和噪声；倒谱特征，对于VAD，能量倒谱峰值确定了语音信号的基频(pitch)，也有使用MFCC做为特征的；基于谐波的特征...：语音的一个明显特征是包含了基频 F0 及其多个谐波频率，即使在强噪声场景，谐波这一特征也是存在的。...加窗因为后面会对信号做FFT，而FFT变换的要求为：信号要么从-∞到+∞，要么为周期信号。现实世界中，不可能采集时间从 -∞ 到 +∞ 的信号，只能是有限时间长度的信号。...由于分帧后的信号是非周期的，进行 FFT 变换之后会有频率泄露的问题发生，为了将这个泄漏误差减少到最小程度（注意我说是的减少，而不是消除），我们需要使用加权函数，也叫窗函数。...加窗主要是为了使时域信号似乎更好地满足 FFT 处理的周期性要求，减少泄漏。

8.6K3 0

这是不是 PowerBI 原生作图的最高境界 - 案例：对比积累分析图

如果让分析师去做一些高信息含量的图表，那该图一定位列其中，因为企业几乎都是是目标（结果）导向的，对此，KPI的达成就是关键的信息了。...关于可视化，我们将可视化分为两类：数据可视化商业图表可视化我们认为这两者是不同的，具体差异，请参考我们的系列文章：（以后再读）真正的商业图表可视化之道-布道篇真正的商业图表可视化之道-实践篇...这个图的特别之处在于：正数和负数的颜色是不同的。这里并没有用 DAX 驱动可视化，而是通过条件格式设置，如下： ? 这里设置颜色也是有技巧的，如下： ?...这里可能影响动态稳定性的还包括数字标签的长短，坐标轴等，很多时候是无法做出完美的叠图的，但叠图仍然是一种非常重要的技巧。...本文信息含量极大，不是简单做一个图给你看看的。

2.5K2 1

开源声码器WORLD在语音合成中的应用

对比三种声学特征，正弦波组成的原始信号中频率最低的正弦波即为基频，其它正弦波则被称为谐波(泛音)；频谱包络是指将不同频率的振幅最高点通过平滑的曲线连接起来得到的包络线；非周期序列对应混合激励部分的非周期脉冲序列...1.2 优势那么我们为什么选择WORLD 作为Vocoder呢？...，随后选择标准差最低的作为基频。...我们的声音包含不同频率的信号，覆盖0到18000赫兹，每个频率都有其振幅（以分贝为单位），我们定义每种频率波的振幅最高点连线组成的图形为包络。...LPC就是线性预测编码，其原理为用若干个语音取样过去值的加权线性组合不断逼近一个语音取样值；Cepstrum则是基于复数倒谱拥有频谱幅度与相位信息的原理，通过对一个信号进行FFT、取绝对值、取对数、相位展开

1.4K2 0

为什么 useState 返回的是 array 而不是 object？

[count, setCount] = useState(0) 这里可以看到 useState 返回的是一个数组，那么为什么是返回数组而不是返回对象呢？...为什么是返回数组而不是返回对象要弄懂这个问题要先明白 ES6 的解构赋值，来看 2 个简单的例子：数组的解构赋值 const foo = [1, 2, 3]; const [one, two, three...，这个问题就很好解释了如果 useState 返回的是数组，那么使用者可以对数组中的元素命名，代码看起来也比较干净如果 useState 返回的是对象，在解构对象的时候必须要和 useState 内部实现返回的对象同名...总结 useState 返回的是 array 而不是 object 的原因就是为了降低使用的复杂度，返回数组的话可以直接根据顺序解构，而返回对象的话要想使用多次就得定义别名了首发自：为什么 useState...返回的是 array 而不是 object？

2.3K2 0

键盘的排列为什么不是“ABCD”而是“QWER”?

本期就来分享下我们常用的键盘，它的字母排列方式为什么不是按顺序排列，而是看似杂乱无章的排列这个就要从键盘的起源说起了，有看过老电影的朋友们或许看到过，在早期没有电脑出现的时候，文件是通过打字机打出来的...，而最早期的打字机，排列还是按照正常顺序排列的。...那为什么这个键盘的顺序, 后来变成了“QWER”呢？这个其实是为了降低打字速度你能信？...也就是他把键盘的排列形式，变成了我们现在使用的样子。早期打字机都是机械结构的，因此如果打字速度过快，某些键的组合很容易出现卡键问题，卡键时就需要停下来修理，这就会占用大量的时间。...所以为了避免卡键，肖尔斯在1868年，就发明了“QWER”的键盘布局，这种布局其实并不是最科学的，仅仅只是为了减低打字速度，强制你慢下来，这样就不会卡键了。

1.6K1 0

为什么开发者不是ChatGPT的主流群体？

ChatGPT 最开始上线不久的时候，看到的大部分尝鲜和测试结果都是开发者在做进行敲代码测试，可以说职业危机感非常强的一群人了。所以我们会潜意识的认为，开发者是ChatGPT的主流群体。...Measurable.AI，2023年1至2月统计数据 ChatGPT 不受开发者待见的原因至于为什么 ChatGPT 不被开发者所欢迎，其实 ChatGPT 它自己是有一些回答的。...而恰好开发者基本上是第一批用户，已经玩的差不多了，说真的我个人来说，认为它现在的成熟度还有挺大的进步空间，现在多玩几次就已经过了瘾，再玩的动力不大。...3、应用场景限制开发者发挥价值如果仅仅是单纯的尝鲜其实是很难有持续使用的效应，基本上问完两个问题满足了好奇的心理就不会频繁使用，除非找到一个特定的场景让 ChatGPT 能够真正的发挥价值。...而一般来讲，技术型产品开发出来最大的难点就在于找到各式各样的应用场景，让其持续的优化和迭代，继而不断的扩充场景实现商业化目的。

6582 0

Go语言中的map为什么默认不是并发安全的？

921 0

EA的研发团队成员为什么不是EA的涉众

，那么其研发团队不是渉众。...既然Sparx Systems的EA研发团队不是EA的目标组织，后面的业务建模、需求工作流都当作其不存在的（参见书中的“投币法”），还谈什么涉众不涉众的，即使硬要排上，不知道排在第几排了。...Sparx Systems做EA的目的应该是想从Rational等公司手里把上面说的A公司这样的客户抢下来，要研究也是研究A公司碰到的问题。...如果这里说的研发人员是另外一个研发团队的研发人员，那他研发的就不会是EA，把“EA”改成“一款建模工具”才不是捏造。...如果该研发团队想研发一款建模工具去和EA竞争，那么，和Sparx Systems的EA研发团队不是EA的目标组织一样，该研发团队极有可能也不是这款建模工具的目标组织。

5352 0

一文学透Crane DSP预测算法

假设某个时序数据在一个周期内有8个采样点，也就是基频信号绕复平面转一圈的过程中会有8个采样点，每次采样时间间隔完全一样。...图9 基频信号在复平面展开基频的投影逻辑也可以一样套用到协波频率上去。以2次谐波为例，2次谐波的频率是基波的两倍，也就是在相同时间内，二次谐波绕着单位圆走了2圈。...而被拆解出来的两个多项式，我们可以继续分解。从程序实现的角度思考，是不是有了递归分解以及动态规划减少重复运算的感觉？对的，这就是FFT的本质。...根据这个特性，我们对第一阶段得到的候选周期在ACF图上进行确认，最终选出位于「最高峰」的点作为序列的主周期（也就是基波周期）。...estimators: fft: - marginFraction: "0.2" // 预留资源余量，0.2代表给出的预测值是同时间段历史指标的1.2倍 // 高于最高频率阈值

1.3K2 0

使用python进行傅里叶FFT-频谱分析详细教程

定理的具体表述为：在进行模拟/数字信号的转换过程中，当采样频率fs大于信号中最高频率fmax的2倍时,即 fs>2*fmax 采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号最高频率的...那这个直接变换后的结果是不是就是我需要的，当然是需要的，在FFT中，得到的结果是复数，（3）FFT得到的复数的模（即绝对值）就是对应的“振幅谱”，复数所对应的角度，就是所对应的“相位谱”，现在可以画图了...，得到的“振幅图”中，第一个峰值（频率位置）的模是A1的N倍，N为采样点，本例中为N=1400，此例中没有，因为信号没有常数项A1 第二个峰值（频率位置）的模是A2的N/2倍，N为采样点，第三个峰值...（频率位置）的模是A3的N/2倍，N为采样点，第四个峰值（频率位置）的模是A4的N/2倍，N为采样点，依次下去.........考虑到数量级较大，一般进行归一化处理，既然第一个峰值是A1的N倍，那么将每一个振幅值都除以N即可 FFT具有对称性，一般只需要用N的一半，前半部分即可。

23.3K8 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么最高的FFT峰值不是乐音的基频？

基本原理

为什么最高的FFT峰值不是乐音的基频

如何准确提取基频

相关·内容

语音合成-声学概念和变声变调

python 和linux环境下：音频处理变频变调的方法和框架

为什么 StringBuilder 不是线程安全的？

为什么 StringBuilder 不是线程安全的？

为什么 StringBuilder 不是线程安全的？

为什么 StringBuilder 不是线程安全的？

为什么Adam 不是默认的优化算法?

声音的表示（2）：作为音视频开发，你真的了解声音吗？丨音视频基础

为什么说你的数据不是大数据？

为什么说你的数据不是大数据？

语音识别流程梳理

这是不是 PowerBI 原生作图的最高境界 - 案例：对比积累分析图

开源声码器WORLD在语音合成中的应用

为什么 useState 返回的是 array 而不是 object？

键盘的排列为什么不是“ABCD”而是“QWER”?

为什么开发者不是ChatGPT的主流群体？

Go语言中的map为什么默认不是并发安全的？

EA的研发团队成员为什么不是EA的涉众

一文学透Crane DSP预测算法

使用python进行傅里叶FFT-频谱分析详细教程

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐