《音视频开发进阶指南》—— 读书笔记

前言

之前偶然看到一个PPT,是一些视频特效的讲解。首页如下:

PPT解析了模糊镜像、电击效果、灵魂出窍、动态晕影等视频处理效果,最后推荐作者自己写的书:

在“音视频进阶”、“唱吧核心架构开发”引起的兴趣之下读完这本书,做一个简单的读书笔记。

正文

一、基础概念

  • 1、音频 声音的物理性质--声音是物体振动产生的波。 声波的三要素:振幅、波形、频率;(对应响度、音色、音调) 声音的传播介质--空气、液体和固体。 人声是声带振动,经过口腔等区域的反射,再经过空气传播。 回声:反射声和原声相差超过80ms则人耳可听。 数字音频与模拟音频:PCM脉冲编码调制。(这里有更详细介绍PCM基础) 常见音频编码:WAV、AAC、MP3。 音频压缩原理:时域/频域掩蔽。
  • 2、图像 颜色空间:YUV和RGB。(各有表示方式,可相互转化) 视频编码:H264。 视频压缩:运动估计、运动补偿等。 I帧、P帧、B帧:I帧是帧内编码帧,P帧是帧间预测编码帧,B帧又称双向预测编码帧;同时,H264中还有IDR帧,表示首个I帧。 PTS、DTS、GOP:PTS是Presentation Time Stamp,DTS是Decoding Time Stamp,GOP是Group Of Picture。

一张图理解DTS、PTS、GOP

关于视频压缩编码和音频压缩编码的基本原理点击这里

二、iOS平台上的音视频

三、音频的进阶知识

波形图:反映各质点在同一时刻不同位移的曲线,叫做波的图像,也叫做波形图。 频谱图:以横轴纵轴的波纹方式,记录画出信号在各种频率的图形。(有振幅频谱图和相位频谱图) 语谱图:针对语音数据的频谱图,叫语谱图。

傅里叶分析:可分为傅里叶级数(Fourier Serie)和傅里叶变换(Fourier Transformation)。 你能想到的任何波形都是可以如此方法用正弦波叠加起来。 傅里叶级数,在时域是一个周期且连续的函数,而在频域是一个非周期离散的函数。 傅里叶变换,将时域信号变换为频域信号。 傅里叶分析之掐死教程 如何直观形象、生动有趣地给文科学生介绍傅里叶变换?

MIDI格式:MIDI(Musical Instrument Digital Interface)全称是乐器数字接口,也是音乐标准格式。MIDI是音符、控制参数等,在K歌软件中用于打分。

均衡效果器:均衡效果器又称为均衡器(Equalizer),其最大的作用就是决定声音的远近层次。我们时常听到别人说这首歌曲是重金属风格的歌曲,或者说这首歌曲是舞曲风格等,其实就与声音的远近层次有关。不同歌曲风格的区别在于声音在不同频段的提升或衰减。 均衡效果器具有美化声音的作用,即调整音色,每个人由于自身声道、颅腔、口腔的形状不同,导致音色不同。如果这个用户所发出的声音在低频部分比较薄弱,就可以在低频部分予以增强,使得整个声音听起来更加温暖;那个用户所发出的声音在高频部分又过于强烈(薄弱),则可以在高频部分予以减弱(增强),可以使声音听起来不那么刺耳(更加嘹亮)。 当然,专家级别的混音师在为歌手处理后期混音时,会有更复杂的调节方法,比如这个歌手的声音低频部分有瑕疵,可以提高中频部分来掩盖有瑕疵的低频段的声音。 均衡器最早是用来补偿频率缺陷的,因为那时音频设备的信号品质很差,在传输过程中损失非常严重,到最后除非进行信号补偿,否则信号就会变得极差。而现在均衡器更多的应用在掩盖歌手的某一个频段的声音缺陷,或者增强某一个频段的声音优势上。

压缩效果器:改变输入信号和输出信号电平大小比率的效果器。

混响效果器:声波在传播时会被各种障碍物反射,且每次反射都被障碍物吸收部分。于是听到的声音往往混合了原始声音以及多次反射的声音,这种现象叫做混响。

四、音视频实践

五、其他

书中还介绍了很重要的库FFmpeg,还有图像处理的对比度调节、饱和度调节、图像处理进阶、图像的卷积过程、锐化效果器、高斯模糊算法、双边滤波算法、图层混合等等,推荐结合GPUImage一起学习。GPUImage除了书上的内容,也可以看看GPUImage 文集

总结

内容讲解深入浅出,案例丰富多彩,适合对音视频开发感兴趣的朋友。 同时,内容在深度这块也比较有限,对于音频相关的知识介绍不足。 音频相关的知识寻找不易,如有好的资料万请分享,共同学习进步。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

如何选择一本优质的数据科学书籍

原作者 Radhouane Aniba 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 如何选书 选择一本合适的数据科学书至关重要,一...

245100
来自专栏奇点大数据

遗传算法(1)

与其说遗传算法是一个算法,不如说是一种处理问题的思想方式更为恰当,因为遗传算法整个体系说来说去都是在说对于一种问题处理的思路和原则,而不是一个具体的代码编写过...

56370
来自专栏自然语言处理

Google Plus 文本提取与分析3

斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Par...

19930
来自专栏华章科技

春招快到了,送你一份数据分析常见面试题

找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。

6510
来自专栏大数据文摘

“微笑传递”背后的数据分析

14640
来自专栏乐享123

GPU运算卡备存

18240
来自专栏美团技术团队

美团点评旅游搜索召回策略的演进

背景 美团点评作为最大的生活服务平台,有丰富的品类可供用户选择,因此搜索这个入口对各业务的重要性不言而喻,除了平台搜索外,业务搜索系统的质量和效果对用户体验、商...

791110
来自专栏喔家ArchiSelf

6行python代码的爱心线

前些日子在做绩效体系的时候,遇到了一件囧事,居然忘记怎样在Excel上拟合正态分布了,尽管在第二天重新拾起了Excel中那几个常见的函数和图像的做法,还是十分的...

47320
来自专栏量子位

凭一张照片找到视频中你所有的镜头,包括背影丨商汤ECCV 2018论文

别担心,商汤可不是准备拍电影,而是提出了新的视频找人方法——也就是,无论一位电影明星演的是青春少女还是白发老人,无论TA露出了正脸还是侧颜,无论影片的镜头明亮鲜...

12100
来自专栏IMWeb前端团队

前端迪士尼动画守则上

阅读此文章前,建议大家先观看一下这个迪斯尼的小视频, 本文的灵感来自于该视频的哈 该视频是描述迪士尼这么多年积累的动画开发经验和规则。 有人就好奇了,迪...

23260

扫码关注云+社区

领取腾讯云代金券