前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【音视频原理】音频编解码原理 ④ ( 音频压缩技术 | 分析 音频采样 占用的 带宽 和 空间 | 人耳听觉 “ 掩蔽效应 “ | 频谱掩蔽效应 | “ 掩蔽阈值 “ 升高的情况 | 时域掩蔽效应 )

【音视频原理】音频编解码原理 ④ ( 音频压缩技术 | 分析 音频采样 占用的 带宽 和 空间 | 人耳听觉 “ 掩蔽效应 “ | 频谱掩蔽效应 | “ 掩蔽阈值 “ 升高的情况 | 时域掩蔽效应 )

作者头像
韩曙亮
发布2024-01-30 11:14:31
4232
发布2024-01-30 11:14:31
举报
文章被收录于专栏:韩曙亮的移动开发专栏

一、音频压缩技术

1、分析 音频采样 占用的 带宽 和 空间

没有经过压缩的 , 原始音频采样 , 是很大的 , 占用的带宽和磁盘空间极大 ;

如 : 采样频率为 44100 Hz , 采样位数是 16 位 ( 单个采样 2 字节 ) , 采样的通道数是 双声道立体声 , 则 该音频的比特率 为 :

44100 \times 16 \times 2 = 1,411,200

该音频一秒钟的比特数为 1411200 比特 ;

该数据量 为

1411200 \div 8 = 176400

字节 , 大约 172MB ;

从数据量分析 : 该 音频 , 1 秒 需要 传输 172MB 的数据 , 1 首歌 3 分钟 , 需要 30G 的空间 ;

从带宽分析 : 平时说的 1M 的带宽 , 是 1Mbps , 每秒钟只能传输 1Mb 的数据 ; 上述音频 1 秒钟需要传输

44100 \times 16 \times 2 = 1,411,200

比特 , 也就是 1.4112 Mb 的数据 , 至少需要 1.4112 Mbps 的带宽 , 才能传输一个音频 , 显然 这是 不可接受的 ;

云服务器 每 1 Mbps 的带宽 , 都是 100 元每月 , 都用来传输音频 , 太贵了 ;

2、音频 压缩技术

音频 压缩技术 就是在 保证 声音信号 在 听觉方面 ( 20Hz ~ 20000Hz 之间 的 频率 ) 不失真 的前提下 , 对 数字音频信号 进行 压缩 , 降低数据量 ;

数字音频压缩编码 , 就是 删除 声音信号 中 冗余 的信息 实现的 , 冗余信息 指的是 不能被 人耳 感知 的信号 ,

  • 如 : 低于 20Hz 的信号 , 高于 20000Hz 的信号 ,
  • 这些信号 对 声音的 音色 , 音调 没有任何影响 ,
  • 删除这些信息 , 声音听起来也不会有太大变化 ;

3、人耳听觉 " 掩蔽效应 "

音频压缩编码 中 , 人耳 " 听觉范围 " 之外的信号 , 就是 " 冗余信号 " ;

人耳 听觉 还有一种 生理 和 心里 声学 现象 , 那就是 当 强音信号 与 弱音信号 同时存在时 , 弱音信号 会被 强音信号 " 掩蔽 " ;

注意 : 上述 强音信号 与 弱音信号 都是 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内的 ;

弱音信号 如果被 强音信号 " 掩蔽 " , 即使 弱音信号 处于 听觉范围 ( 20Hz ~ 20000Hz ) 之内 , 也会被视为 " 冗余信号 " ;

在 " 掩蔽效应 " 中 , 主要 表现在 " 频谱掩蔽效应 " 和 " 时域掩蔽效应 " 两个方面 ;

二、频谱掩蔽效应


1、频谱 " 掩蔽效应 "

下图中 ,

  • 横坐标 是 音频信号 的 频率值 , 单位 赫兹 Hz ;
  • 纵坐标 是 音频信号 的 声音强度 , 单位 分贝 dB ;
  • 纵坐标 的 声音强度 可以看做是 频率 的 能量值 ;

掩蔽阈值 : 当一个 频率 的 声音强度 小于 某个阈值 时 , 人耳就听不到了 , 如下图所示 , 下图 红色的线就是掩蔽阈值 ;

  • 在 0.02 kHz 的频率下 , 对应 20Hz 频率 , 声音强度要达到 70 分贝 时 , 才能被听到 , 如果 声音强度 低于 70 分贝 , 就听不到了 , 这部分 听不到的 信号就是冗余信号 , 不用被编码 ;
  • 在 2 ~ 5 kHz 的频率下 , 很小的 声音 , 就能被听到 ,

" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;

2、" 掩蔽阈值 " 升高的情况

当 某个 频率 的 声音信号 有较大的能量时 , 即 某个频率的声音信号 强度很大时 , 该 频率 附近的 掩蔽阈值 就会提高很多 ;

下图中 , 大约在 0.3kHz 的位置 , 该频率 的 声音信号能量很大 , 大约为 60 分贝 , 此时 该频率 ( 0.3kHz ) 附近的信号的 掩蔽阈值会升高 ,

下图中 1.0kHz 到 1kHz 频率范围内的 声音信号 的 掩蔽阈值 会由 红色的曲线 变为 蓝色曲线 , 掩蔽阈值 升高了 ,

该频率范围 ( 1.0kHz 到 1kHz 频率范围 ) 内 , 声音 高于 蓝色 的 掩蔽阈值 强度 , 才能被人耳听到 ;

" 掩蔽阈值 " 之下 的 声音信号 , 可以被作为 " 冗余信号 " , 直接丢弃 , 不用被编码 ;

三、时域掩蔽效应


当 强音信号 和 弱音信号 同时出现 , 或 前后时间接近 相继出现时 , 弱音信号 会被 强音信号 " 掩蔽 " , 这就是 " 时域掩蔽效应 " ;

" 时域掩蔽效应 " 的原理是 : 当 强音信号 出现时 , 会 引起听觉神经的强烈反应 , 该反应会 在一定时间内抑制对弱信号的感知 ; 这种 抑制作用 的 持续时间 取决于 强音信号的 强度 和 持续时间 , 以及 弱音信号 的频率和强度等因素 ;

借助 人耳听觉 的 该特性 , 可以 将 被 时域掩蔽 的 弱音信号 , 当做 " 冗余信号 " 不进行 音频编码 , 这样就减少了编码数据量 ;

" 时域掩蔽效应 " 分为 三种情况 :

  • 超前掩蔽 : 指人耳在 听到 强音信号 之前的短暂时间内 , 已经存在的 弱音信号 会被 掩蔽 而听不到 ;
  • 同时掩蔽 : 当 强音信号 与 弱音信号 同时存在时 , 弱音信号 会被强信号所掩蔽而听不到 ;
  • 滞后掩蔽 : 当 强音信号 消失后 , 需经过 较长的一段时间 才能重新听见 弱音信号 ;
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、音频压缩技术
    • 1、分析 音频采样 占用的 带宽 和 空间
      • 2、音频 压缩技术
        • 3、人耳听觉 " 掩蔽效应 "
        • 二、频谱掩蔽效应
          • 1、频谱 " 掩蔽效应 "
            • 2、" 掩蔽阈值 " 升高的情况
            • 三、时域掩蔽效应
            相关产品与服务
            云服务器
            云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档