前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Audio ABC | CD为何是44.1KHz采样率?

Audio ABC | CD为何是44.1KHz采样率?

作者头像
icsoc
发布2020-07-06 14:53:30
3.9K0
发布2020-07-06 14:53:30
举报
文章被收录于专栏:ICSOC.TECHICSOC.TECH

旧文排版重发,略作修改。

小朋友英语学习的培训教材中附送了一张音频CD,作者在鼓捣这张CD的时候,忽然一个问题冒了出来:为什么CD采用了44.1KHz的采样率?为什么不是48KHz?毕竟48这个数字看起来整齐的多。为此作者做了一番搜索和研究,分享给感兴趣的朋友。

声音的基本概念

首先介绍一些常见的音频概念。大家知道人耳能听到声音,是因为声音在音源处产生后,对空气产生了一系列忽强忽弱的压力,这种压力的变化(振动)可以被人耳内部的耳膜感受到,然后经由各种神经细胞,汇总到大脑中形成声音的感觉。

有时候这种压力比想象的要大的多,它不仅可以驱动薄薄的耳膜,当强度足够大时,甚至可以吹动人的头发和衣服。参加过室外音乐节的朋友,如果碰巧在现场比较靠近喇叭的地方,应该有切身的体会。人耳能听到的这种压力振动的范围大概在20Hz到20KHz,Hz即赫兹,即每秒钟振动发生的次数。

除了耳道,身体的其它一些部分也可以感受到声音的振动,例如骨传导耳机就是绕过了耳膜,利用头部骨骼来传递声音的振动。

(骨传导原理。图片来自网络)

音频信号的采样

因为声音本质上是一个连续的模拟信号,当声音被记录下来,尤其是数字化记录时,就涉及到采样率和采样精度这两个概念。工科的朋友们可能对奈奎斯特采样定理比较熟悉,就是对声音信号做采样时,采样频率一定要大于声音信号最高频率的两倍。一个通用的声音记录系统,当然需要应对声音的大范围频率,即20KHz声音需要的采样频率至少是40KHz,考虑到后续的各种传输、处理过程带来的损失,采样频率一般会高于40KHz。

(数字化的440Hz正弦波,采样频率8KHz,采样精度8bit)

采样频率

常用的采样频率大概分三个系列,分别以8KHz、12KHz、11.025KHz为基准。由此衍生出来的采样频率就有三个系列。

•8K、16K、32K、64K、128K•12K、24K、48K、96K、192K•11.025K、22.05K、44.1K、88.2K

采样精度

如果说采样频率对应的是时间维度上对于声音的采样,那么采样精度就是对应的幅度维度。它把采样系统所支持的幅度范围分成若干间隔,然后用一个数字来代表每一个间隔对应的幅度值。当某一个时刻的声音幅度落在某个间隔时,就用这一间隔的数字来代表这个声音在这个时刻的幅度。

采样精度,通常有8bit、16bit、24bit、32bit这几种。

音频通道

还有一个概念就是声音通道数量,常见的就是两个声道,一左一右。家庭影院声道数量更丰富一些,一般不大于十个。在电影院中,通常会更多,有几十个声道。所以在电影院中声音复现的更为真实,配合电影画面使得观众有身临其境的感觉。每个声道一般都对应录制时的一个麦克风,当然有些声道也可以后期合成。

音频编码

采样完成后,通常还有个编码的过程。最直观的编码就是PCM格式了,它是一种有正有负的数字表示方式,以衡量特定时刻的声音幅度。正、负其实是相对的概念,都是相对于数字零所对应的幅度而言。

音频存储

上面是声音数字化记录的一些参数,那么这些数字化的记录如何存放?数字记录生成的文件有好多种,在Windows平台,最直观就是wav文件了。相比大家熟悉的MP3格式文件,wav直接保存的就是PCM编码的声音幅度信息,而采样频率、采样精度以及声音通道数目,就在wav文件头中标明。这样当一个播放器播放wav文件的时候,它首先读取文件头,了解这个声音的采样率、采样精度、声道数目,就可以恢复出正确的声音了。

为什么是44.1KHz

日常生活中大家都接触过CD,记得在2000年前后,当时MP3还未普及,大家听音乐、歌曲还是主要靠购买CD。CD一般来说是Compact Disc Digital Audio的简称,翻译成中文大概是紧凑型数字音频盘的意思。最初由飞利浦和索尼在上个世纪80年代初以红书(Red Book)的形式联合发布,在1987年被标准化组织IEC接纳为正式标准,编号为IEC 60908。这个标准最近一次修订是在1999年。飞利浦和索尼出版了一系列以颜色命名的标准,全部都是关于Compact Disc的,红书(Red Book)就是其中描述数字音频CD的一本。

(CD Logo、CD盘面、早期的CD唱机、放大的CD表面纹路)

IEC 60908整个标准还是挺繁杂的,我们只关注其中的编码部分。简单来说,存放于CD中的音频编码标准就是声音通道数为2、采样精度16bit、编码格式为线性PCM、采样率固定是44.1KHz

(适用于CD的音频标准IEC60908)

原因一:PCM Adaptor和视频制式

在红书(Red Book)发布之前的1970年代,还存在着一种录音设备叫做PCM适配器。顾名思义,它把模拟的音频信号转换成数字的PCM编码,并提供录制到视频存储设备上的接口。

为什么音频和视频搅和在一起?因为当时已有的音频存储设备带宽不够大,不足以提供16位的PCM数字音频的存取带宽,这个带宽大概在1M~1.5M bit/s,这在当时是一个相当“高”的带宽,只有视频存储设备才有如此高的存取能力。PCM适配器把音频数据按特定的视频格式打包,从而可以借助于已有的“高带宽”视频存储设备实现音频数据的存取。

(Sony PCM-F1:PCM Adaptor)

好吧,回忆一下文章开头的问题:为什么CD的采样率是44.1KHz

到这里,已经非常接近问题的答案了。那就是——

任何新事物都要尊重传统的力量。

具体到这个问题,就是音频CD的采样率沿用了PCM适配器的采样率,而PCM适配器的采样率还要能够兼容视频存储设备的特定要求,以便利用当时已有的视频存取设备来存取其中的音频数据。

当时大量存在的视频存储设备主要支持两种视频制式,一种是25帧制式(称为CCIR 625/50,也叫PAL),一种是30帧制式(称为EIAN 525/60,也叫NTSC)。当时世界上有电视普及的国家按这两种制式分为两个阵营。

首先看30帧(即60场)制式,这种制式的一帧中,可利用来录制音频的视频行最多能有490行,分到每一场(Field)就有245行。在每一视频行可以平均存储3个音频采样点,那么音频出现的频率就是60*245*3 = 44100。这就是44.1KHz采样率的由来的原因之一。

同样在25帧(即50场)制式中,最大可利用的行数是588行,分到每一场有294行,同样每一行存放3个音频采样点,那么音频采样率就是50*294*3 = 44100

这样44.1KHz的音频采样率可以保证对两种视频制式的最大限度兼容。

原因二:Prime Numbers

还有一种解释说明采用44100Hz的原因是,44100可以分解成2、3、5、7四个最小连续质数的平方的乘积。听起来有些神秘主义的倾向,作者推测这些质数因子有助于系统实现时的频率合成。

(神秘数字44100可分解为质数平方积)

原因三:Symphony No. 9 (Beethoven)

还有一种更为传奇的说法,就是最初的CD设计团队发现,如果用48KHz的采样率的话,一张CD放不下74分钟版的贝多芬第九交响曲。而采用稍小的44.1KHz,则刚好可以放下。作者感觉这种说法有点儿太传奇太浪漫了,信不信由您。

(贝多芬第九交响曲手稿)

好了,看到这里,想必您对CD为何采用44.1KHz的音频采样率已经有了一些了解。可以看出,任何一项新技术的发明和发展,都离不开对已有技术的依赖、消化和继承。任何创新都不是凭空从头脑中诞生的,而是一步一步脚踏实地的走出来的。这是作者在这个问题的探索中获得的一点点感悟,与诸君分享。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 icsoc 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 声音的基本概念
  • 音频信号的采样
  • 采样频率
  • 采样精度
  • 音频通道
  • 音频编码
  • 音频存储
  • 为什么是44.1KHz
  • 原因一:PCM Adaptor和视频制式
  • 原因二:Prime Numbers
  • 原因三:Symphony No. 9 (Beethoven)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档