专栏首页漫漫深度学习路数字音频基础知识

数字音频基础知识

了解声音

声波

声音始于空气中的振动,如吉他弦、人的声带或扬声器纸盆产生的振动。这些振动一起推动邻近的空气分子,而轻微增加空气压力。压力下的空气分子随后推动周围的空气分子,后者又推动下一组分子,依此类推。高压区域穿过空气时,在后面留下低压区域。当这些压力波的变化到达人耳时,会振动耳中的神经末梢,我们将这些振动听为声音。

当您看到表示音频的可视化波形时,它反映了这些空气压力波。波形中的零位线是静止时的空气压力。当曲线向上摆动到波峰时,表示较高压力;当曲线向下摆动到波谷时,表示较低压力。

表现为可视化波形的声波

表现为可视化波形的声波

A. 零位线 B. 低压区域 C. 高压区域


波形测量

几个测量值描述了波形:

振幅: 反映从波形波峰到波谷的压力变化。高振幅波形的声音较大;低振幅波形的声音较安静。 周期: 描述单一、重复的压力变化序列,从零压力,到高压,再到低压,最后恢复为零。 频率: 以赫兹 (Hz) 为单位测量,描述每秒周期数。(例如,1000 Hz 波形每秒有 1000 个周期。)频率越高,音乐音调越高。 相位: 以度为单位测量,共 360 度,表示周期中的波形位置。零度为起点,随后 90º 为高压点,180º 为中间点,270º 为低压点,360º 为终点。 波长: 以英寸或厘米等单位测量,是具有相同相位度的两个点之间的距离。波长随频率的增加而减少。

左侧为单个周期;右侧为完整的 20 Hz 波形

A. 波长 B. 相位度 C. 振幅 D. 一秒


声波如何互相作用

在两个或更多声波相遇时,它们会彼此相加和减去。如果它们的波峰和波谷完全同相,则互相加强,因此产生的波形的振幅高于任何单个波形的振幅。

如果两个波形的波峰和波谷完全异相,则会相互抵消,导致完全没有波形。

然而,在大多数情况下,各种声波会存在不同程度的异相,产生比单个波形更复杂的组合波形。例如,表示音乐、语音、噪声和其他声音的复杂波形结合了各种声音的波形。

注意: 因为其独特的物理结构,单个乐器可以产生极复杂的声波。这就是小提琴和小号即使演奏相同音符但听起来不同的原因。

Examples:

同相声波互相加强。

异相声波互相抵消。

两个简单的声波组合成复杂的声波。


数字化音频

比较模拟和数字音频

在模拟和数字音频中,声音的传送和储存方式非常不同。

模拟音频:正负电压 麦克风将声音压力波转换成电线中的电压变化:高压成为正电压,低压成为负电压。当这些电压变化通过麦克风电线传输时,可以在磁带上记录成磁场强度的变化或在黑胶唱片上记录成沟槽大小的变化。扬声器的工作方式与麦克风相反,即通过音频录音和振动中的电压信号重新产生压力波。

数字音频:零和一 与磁带或黑胶唱片等模拟存储介质不同,计算机以数字方式将音频信息存储成一系列零和一。在数字存储中,原始波形被分成各个称为采样的快照。此过程通常称为数字化或采样音频,但有时称为模数转换。

从麦克风录制到计算机时,例如,模数转换器将模拟信号转换为计算机能够存储和处理的数字样本。


了解采样率

采样率表示音频信号每秒的数字快照数。该速率决定了音频文件的频率范围 。采样率越高,数字波形的形状越接近原始模拟波形。低采样率会限制可录制的频率范围,这可导致录音表现原始声音的效果不佳。

两个采样率

A. 使原始声波扭曲的低采样率。 B. 完全重现原始声波的高采样率。

为了重现给定频率,采样率必须至少是该频率的两倍。例如,CD 的采样率为每秒 44,100 个采样,因此可重现最高为 22,050 Hz 的频率,此频率刚好超过人类的听力极限 20,000 Hz。

以下是数字音频最常用的采样率:


了解位深度

位深度决定动态范围。采样声波时,为每个采样指定最接近原始声波振幅的振幅值。较高的位深度可提供更多可能的振幅值,产生更大的动态范围、更低的噪声基准和更高的保真度。

位深度越高,提供的动态范围越大。


以 dBFS 为单位测量振幅

在数字音频中,幅度以满量程的分贝数或 dBFS 为单位测量。最大可能的振幅为 0 dBFS;所有低于该值的振幅均表示为负数。

注意: 给定的 dBFS 值不直接对应于以声学 dB 为单位测量的原始声音压力级别。


音频文件的内容和大小

硬盘中的音频文件(如 WAV 文件),包含一个表示采样率和位深度的小标头,然后是一长列数字,每个采样一个数字。这些文件可能非常大。例如,在每秒 44,100 个采样和每采样 16 位下,一个单声道文件每秒需要 86 KB,每分钟大约 5 MB。对于具有两个声道的立体声文件,该数字将翻倍到每分钟 10 MB。

参考资料

https://helpx.adobe.com/cn/audition/user-guide.html?topic=/cn/zh-Hans/audition/morehelp/digital_audio_fundamentals.ug.js

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python绘图:matplotlib绘图(2)

    matplotlib绘图(2) plt.bar colors=["#348ABD","#A60628"] plt.bar([0,.7], prior, alph...

    ke1th
  • ubuntu16.04 server 无法联网

    ubuntu16.04 server 无法联网 由于服务器上有四个网卡,不确定网线应该插哪个,所以导致了无法联网。 解决方法 ifconfig -a 打印出所有...

    ke1th
  • lamp on ubuntu

    A "LAMP" stack is a group of open source software that is typically installed t...

    ke1th
  • IdentityServer4 关于 AddIdentityServerAuthentication 方法

    AddIdentityServerAuthentication 是 IdentityServer 官方封装的用于认证的方法,接入 ASP.NET Core 的认...

    晓晨
  • 使用Delphi编写×××类游戏 – 设

    通过以上两篇关于对中心服务器和登录服务器设计的阐述,大家应该对设计它们有了一定的了解。但是中心服务器和登录服务器毕竟是游戏外围的部分,也就是说设计好了它们也还是...

    py3study
  • springboot2.0.0 spring webflux文件上传和下载

    24-丰总
  • Netflix:通过自适应音频码率提升音频体验

    文 / Guillaume du Pontavice、Phill Williams和KyleePeña(代表我们的流媒体算法,音频算法和创新技术团队)

    LiveVideoStack
  • [深度学习概念]·深度学习进行语音识别-简单语音处理

    吴恩达教授曾经预言过,当语音识别的准确度从95%提升到99%的时候,它将成为与电脑交互的首要方式。

    小宋是呢
  • go grpc 深入笔记

    取消RPC客户端或服务器可以随时取消调用。 取消立即终止RPC。 它不是一个“撤消”:取消之前所做的更改将不会被回滚。

    solate
  • 学术资讯|斩获2019 Thales AIChallenge4Health第一,腾讯优图医疗AI再获突破

    近日,腾讯优图实验室医疗AI再获新突破。由腾讯优图研发的医疗AI系统——医疗器械校准中的超高精度关键点检测方法,从二百余支队伍中脱颖而出,在2019 Thale...

    优图实验室

扫码关注云+社区

领取腾讯云代金券