没有经过压缩的 , 原始音频采样 , 是很大的 , 占用的带宽和磁盘空间极大 ;
如 : 采样频率为 44100 Hz , 采样位数是 16 位 ( 单个采样 2 字节 ) , 采样的通道数是 双声道立体声 , 则 该音频的比特率 为 :
该音频一秒钟的比特数为 1411200 比特 ;
该数据量 为
字节 , 大约 172MB ;
从数据量分析 : 该 音频 , 1 秒 需要 传输 172MB 的数据 , 1 首歌 3 分钟 , 需要 30G 的空间 ;
从带宽分析 : 平时说的 1M 的带宽 , 是 1Mbps , 每秒钟只能传输 1Mb 的数据 ; 上述音频 1 秒钟需要传输
比特 , 也就是 1.4112 Mb 的数据 , 至少需要 1.4112 Mbps 的带宽 , 才能传输一个音频 , 显然 这是 不可接受的 ;
云服务器 每 1 Mbps 的带宽 , 都是 100 元每月 , 都用来传输音频 , 太贵了 ;
音频 压缩技术 就是在 保证 声音信号 在 听觉方面 ( 20Hz ~ 20000Hz 之间 的 频率 ) 不失真 的前提下 , 对 数字音频信号 进行 压缩 , 降低数据量 ;
数字音频压缩编码 , 就是 删除 声音信号 中 冗余 的信息 实现的 , 冗余信息 指的是 不能被 人耳 感知 的信号 ,
音频压缩编码 中 , 人耳 " 听觉范围 " 之外的信号 , 就是 " 冗余信号 " ;
人耳 听觉 还有一种 生理 和 心里 声学 现象 , 那就是 当 强音信号 与 弱音信号 同时存在时 , 弱音信号 会被 强音信号 " 掩蔽 " ;
注意 : 上述 强音信号 与 弱音信号 都是 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内的 ;
弱音信号 如果被 强音信号 " 掩蔽 " , 即使 弱音信号 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内 , 也会被视为 " 冗余信号 " ;
在 " 掩蔽效应 " 中 , 主要 表现在 " 频谱掩蔽效应 " 和 " 时域掩蔽效应 " 两个方面 ;
下图中 ,
掩蔽阈值 : 当一个 频率 的 声音强度 小于 某个阈值 时 , 人耳就听不到了 , 如下图所示 , 下图 红色的线就是掩蔽阈值 ;
" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;
当 某个 频率 的 声音信号 有较大的能量时 , 即 某个频率的声音信号 强度很大时 , 该 频率 附近的 掩蔽阈值 就会提高很多 ;
下图中 , 大约在 0.3kHz 的位置 , 该频率 的 声音信号能量很大 , 大约为 60 分贝 , 此时 该频率 ( 0.3kHz ) 附近的信号的 掩蔽阈值会升高 ,
下图中 1.0kHz 到 1kHz 频率范围内的 声音信号 的 掩蔽阈值 会由 红色的曲线 变为 蓝色曲线 , 掩蔽阈值 升高了 ,
该频率范围 ( 1.0kHz 到 1kHz 频率范围 ) 内 , 声音 高于 蓝色 的 掩蔽阈值 强度 , 才能被人耳听到 ;
" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;
当 强音信号 和 弱音信号 同时出现 , 或 前后时间接近 相继出现时 , 弱音信号 会被 强音信号 " 掩蔽 " , 这就是 " 时域掩蔽效应 " ;
" 时域掩蔽效应 " 的原理是 : 当 强音信号 出现时 , 会 引起听觉神经的强烈反应 , 该反应会 在一定时间内抑制对弱信号的感知 ; 这种 抑制作用 的 持续时间 取决于 强音信号的 强度 和 持续时间 , 以及 弱音信号 的频率和强度等因素 ;
借助 人耳听觉 的 该特性 , 可以 将 被 时域掩蔽 的 弱音信号 , 当做 " 冗余信号 " 不进行 音频编码 , 这样就减少了编码数据量 ;
" 时域掩蔽效应 " 分为 三种情况 :