前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HDR关键技术:光学、视觉与光电转换曲线

HDR关键技术:光学、视觉与光电转换曲线

作者头像
用户1324186
发布2018-09-21 17:05:28
11.7K0
发布2018-09-21 17:05:28
举报
文章被收录于专栏:媒矿工厂

摘要:

本系列的前作当中介绍了HDR技术的相关技术与标准,本文将从更基础的知识点出发,重点介绍HDR技术的两大关键基础-亮度与颜色中的前者。

可见光与人类视觉感知特性基础

HDR,即高动态范围是一个光学及视觉领域的概念,如果想要清楚地理解什么是HDR,HDR与SDR的差别在哪里,以及HDR技术的理论基础,首先需要对光学以及人类视觉感知系统(Human Visual System,HVS)有基本的了解。

可见光

图像,本质上是对可见光的记录与还原。从电磁波的角度来看,可见光可以看作电磁波谱中人眼可以感知的部分。自然界中,人类熟知的电磁波的波长可以从

(γ射线)一直到

(无线电),一般人眼可以感知的电磁波波长在400~760nm之间,但还有一些人能够感知到波长大约在380~780nm之间的电磁波。由此可见,可见光的波长范围相比电磁波的波长,是非常小的范围。

图1 光谱与可见光范围

从另一个角度来看,光可以被认为是由光子组成的,光子可以被发射,被反射,被吸收以及可以在空间中传输。光子在空间中沿直线传播。当遇到物体时,光子可能产生了两种结果:第一种是被物体表面吸收,并产生热能;第二种是被物体表面反射。反射方向依据物体表面情况又可以分为两种:当物体表面粗糙时,光会漫反射,即出射角度可能是任何方向;当物体表面光滑时,光会发生镜面反射,即出射角度基本只有一个方向。光的这些性质,是我们记录图像,显示图像的基础。

从现实经验我们可以了解到,镜面反射的光线会对图像质量产生不良影响。镜面反射的光线强度过大,反映到图像中会显示为白茫茫的一片,从而失去精确细节。如何获取、记录这种过曝光区域的图像细节,是HDR技术领域的一项重要问题。

人眼特性对不同波长可见光,所感受的刺激是不同的。对同一个波长的光,不同人的敏感程度也是有差异的。不过可见光的波长范围较小,忽略不同人的敏感差异性,可用一个统一的曲线进行描述。这种描述曲线由国际照明委员会(CIE)标准化,并命名为V(λ),CIE photopic luminous efficiency curve [1]。曲线图像如图所示:

图2 人眼可见光敏感度归一化曲线

动态范围

在亮度方面,还有一项重要特征是相对亮度。因为相对亮度与HDR技术中的重要概念-动态范围息息相关,而动态范围与对比度密切相关。

动态范围是指某度量的最大和最小值之间的比值。在HDR技术中,动态范围就是指图像的最大亮度与最小亮度的比值。描述相对亮度的物理量称之为对比度。对比度描述了场景或显示设备的最大亮度与最小亮度之间的关系。因此可以认为,在显示设备上,HDR图像技术需要实现高动态范围,实际上就是实现高对比度。

对比度也有几种不同的计算方式,其中最重要的三种对比度分别为:韦伯对比度(

),麦克森对比度(

)以及比率对比度(

),定义为:

其中

分别为场景中的最大与最小亮度值。

人类视觉感知系统

人类视觉感知系统(HVS)对图像与视频技术研究至关重要,很多技术都是建立在对视觉感知系统机理和特性的了解。简而言之,HVS就是人为地对人眼的生理视觉特性进行模拟,从而实现对图像与视频处理方式的优化与流程的简化。由于人类视觉系统的极大复杂度,许多视觉物理学现仍处于假设研究阶段。一些研究已经发现了低层的视觉物理学特性,包括:亮度非线性、对比度敏感、掩盖效应、多通道并行及视觉注意力等等。

亮度非线性指相对于观测物体的绝对亮度,人眼对亮度变化更为敏感。特别地,在一定范围内,人眼对亮度变化的感觉与亮度值的对数线性相关(韦伯定律,后文详述)。

对比度敏感表明HVS的频率响应特性,代表了人眼对于强度值差别的区分能力。研究中通过调整正弦光栅的幅度和频率进行了一系列实验,给出了著名的Campbell-Robson对比度敏感函数(Contrast Sensitive Function ,CSF),并提出CSF 可以视为一个带通滤波过程。

掩盖效应主要指由于某个掩盖因子的出现,图像要素可见性的损失情况。可以形容为当存在激励A的情况下,激励B的感知将会得到加强或减弱。一些研究指出视觉处理是多通道并行的。即不同的视觉信息通过不同的神经通道预处理后作为视觉中枢的输入。之后被不同类型的皮层细胞处理。例如在初级视觉中枢中,大部分神经元对于具有特定频率的激励表现敏感。

视觉注意力是指我们只对周围环境中特定的场景或行为注意,使得场景中的某些特定点或区域被选为场景特征。注意力分配过程会加强场景特征的影响并影响观测者的主观感受。

在这些特性之中,需要着重介绍的是对比度敏感性,以及与之相关的对比度敏感函数,因为对比度敏感函数在后续的HDR技术中,起到了重要的作用。

在日常生活中,人眼需要分辨边界清晰的物体,也需要分辨边界模糊的物体。后一种分辨能力则称为对比敏感度。通过研究,人们发现对比敏感度是与一些参数相关的,通过对这些参数进行建模,我们就可以得到对比度敏感函数(CSF)。

对比敏感度(CS)定义为视觉系统能觉察的对比度阈值的倒数。对比敏感度=1/对比度阈值。对比度阈值低,则对比敏感度高,则视觉功能好。在某一空间频率,视觉系统有一定的对比敏感度;反之,在同一对比度时,视觉系统有一定的空间频率分辨力(形觉)。

对比度敏感函数(CSF)

德国生理学家Peter Barten提出了一个复杂的公式去描述人眼视觉系统的对比灵敏度函数 [2]。

人眼的对比灵敏度定义为对比度门限的倒数或者是阈值调整深度。当给正弦亮度模型添加噪声时,阈值对比度会从

增加为

,其表达式为:

其中

为包含外部噪声的调制门限,

是噪声的平均调制深度,k是一个无量纲常数,其取值依赖于测试环境和观察者。根据图像噪声的基本特征,平均调制深度可以用以下表达式表示:

其中X、Y分别是引入了噪声后物体的时域和空域尺寸,T为人眼的积分时间(一般取0.1s)。下边分别给出三者的定义:

其中,

表示物体的呈现时间;

表示人眼积分时间,通常取0.1s。

其中X和Y表示人眼的视直径,

是物体在x方向和y方向的视直径,

是积分区域的最大角方向。通常假定

等于

,并取值为

但是实际测量结果显示,积分面积通常会受到最大周期数

的限制,此时相应的最大视直径为

/u,u为空间频率。通常x和y方向是等价的,考虑到以上限制,X和Y可以改写为

以上给出的公式是针对外部噪声的,但是同样可以适用于内部噪声。重新整理公式(2)得到:

其中,

为内部噪声的光谱强度,

是人眼的光学调制传递函数。根据对比灵敏度的定义,可以得到其表达式为:

由此得到了人眼对比灵敏度模型的基本数学模型。

前边提到的光学调制传递函数不仅包含了人眼晶状体的光学调质传递函数,同时也考虑了在视网膜和离散结构的光感受器间的散射光的作用。根据中心极限定理,低通的光学传递函数可以用高斯函数描述。通常,有

其中σ是人眼的光学点分布函数的径向标准差,它的取值依赖于晶状体的瞳孔直径d。当瞳孔直径较大时,σ与d成线性关系;但是当瞳孔直接d较小时,由于衍射作用的影响,σ与d会成反比关系。由于d小于2毫米时衍射作用可以忽略,因此σ通常可以表示为:

其中

是一个常数,

是一个描述σ随瞳孔直径d增加的常数。瞳孔直径d由以下表达式确定:

人眼内部噪声主要有两个来源:一个是由到达光感受器的光子数目的波动造成的光子噪声,由Varies于1943年首次发现;另一个来源则是信号在大脑皮质层传输时的统计波动造成的神经噪声。

表示光子噪声的光谱强度,

表示神经噪声的光谱强度,根据统计学知识,可以得到两者的数学模型为:

其中j是视网膜的通量密度。用η表示人眼的量子效率,用p表示光子的转换系数,用E表示与视网膜照度成比例的亮度数。通过计算进入人眼光神经纤维的发光强度可以得到j的表达式为:

人眼的初级视觉信息传递的基本过程是:由光感受器感知,然后传递到双极细胞,再到神经节细胞,最终到达视中枢。由于视觉信息是通过许多神经纤维并行传导的,因此如果由于延时等原因造成不同的神经纤维最终传递给大脑的信息不完全相同,就产生了神经噪声。通过对比灵敏度测量的比较实验可以得到,该模型中神经噪声的光谱强度

经过估计为0.03x10-6sec deg2。

侧向抑制作用指视觉系统中的OFF型神经节细胞在光照中心区产生抑制作用,而在光照的周围区域产生兴奋,其最主要的作用是增强反差和突出边缘。要计算神经噪声,必须要考虑到由光感受器生成的信号是经过了侧向抑制作用的。假设F(u)为空间低通滤波器的调制传递函数,那么侧向抑制过程的调制传递函数可以表示为1-F(u),那么神经噪声的数学模型可以表示为:

其中

为神经噪声固有的频谱密度。并且上述表达式的分母可以近似为:

其中

是停止衰减的空间频率下界。

结合之前给出的所用公式,现在可以推出Barten对比灵敏度函数的数学模型为:

其中k、

和η的取值与观测者有关,但公式(14)中的各参数的值通常取为:

Barten模型是人类视觉感知特性模型的重要基础,它是图像显示中人眼最小亮度差分辨率阈值理论依据。ITU BT.2246 [3]中给出Schreiber(蓝色虚线)和Barten模型曲线(紫色虚线)。如下图所示:

图3 人眼可察觉亮度差阈值曲线

光电转换与HDR图像显示

将自然界中真实场景转换为屏幕上显示出来的图像,往往需要经过两个主要步骤:第一个是通过摄影设备,将外界光信息转换为图像信息存储起来,本质上是存储为数字信号;第二个是通过显示设备,将图像信息转换为屏幕输出的光信息。下图展示了从拍摄到显示的电视信号链。在整个过程中,信息流要经过两个重要的非线性映射,才能形成我们在显示设备上看到的图像。其中,相机的非线性映射通常称为光电转换函数(OETF),而显示端的显示器的非线性映射通常称为电光转换函数(EOTF)。通常,OETF和EOTF并不是互逆关系。显示端的EOTF往往还包括代表创作者渲染意图的光光转换函数(OOTF),其对观看者在较暗环境下通过显示器观看带来的心理视觉影响进行了修正。

图4视频制作与显示流程

在图像获取,存储与显示发展过程中,前面提到的光电转换函数与电光转换函数也经历了多次进化。

在整个发展过程中,最具有指导意义的是Gamma校正,这是一种在传统的SDR显示设备上被广泛使用的转换函数。我们从Gamma校正开始,通过对Gamma校正的介绍,解释清楚光电转换与电光转换函数的理论依据与在实际场景中是如何应用的。最后再把目光转移到HDR领域上,来介绍在HDR领域中,如何设计新的光电转换函数与电光转换函数,来实现HDR图像的显示。

Gamma校正

在最前面必须要强调的是,视觉是人类的主观感受,因此,人眼看到的、感受到的和自然界中的实际场景存在误差。一个直观的例子是人眼所感受到的均匀变化亮度,在实际自然界中却非均匀变化。这种视觉特性,就是Gamma校正产生的原因,即通过人为的非线性映射,使人类感受到自然界的“真实”景象。

韦伯定律

在详细介绍Gamma校正之前,需要先简单了解一个概念:韦伯定律。

韦伯定律是用来描述外界刺激变化与人类感知到变化之间的关系,公式如下:

其中∆Φ表示此时的差别阈值,是指人类能够感觉到外界刺激出现改变所需的最小改变量。Φ表示原刺激量,K为常数。

简而言之,韦伯定律告诉我们,差别阈值与原刺激量成正比关系。也就是说,外界刺激本身越大,差别阈值就越大。

仔细分析一下韦伯定律能够从中发现,人类对于外界刺激的感知并非线性的。从韦伯定律可以发现,原刺激越大时,由于比例关系,差别阈值就越大。即当外界刺激强度越大时,想让人类能够感知到变化所需的变化增量就必须越大。所以人类感知从1到2再到3时,所需变化量是倍数关系的增加,比如:外界刺激强度为1时,人类感知为1,刺激强度为3时,人类感知为2,刺激强度为7时,人类感知到的强度才为3。

举一个现实中的例子:在一个黑暗的房间中,点燃一根蜡烛,将让人感知到巨大的亮度改变。而如果房间中有99根蜡烛,再点燃一根蜡烛人类可能根本感觉不到有所差别。所以,如果想要让人类感知到同样程度的亮度改变,所需的蜡烛数量可能是成百上千根才行。

Gamma校正

首先介绍人眼对于亮度的实际感受情况,然后介绍Gamma校正。

图5 人眼感受到的亮度

经过一系列实验的测定,人们发现人类能够感知到的连续亮度谱如上图所示。也就是说,如果比上图更加精细,则没有必要,因为人眼无法识别;而如果比上图粗糙,则人眼能够感觉到间断。接着,将最左边纯黑编号为“0.0”,最右端纯白编号为“1.0”,中间定义为中灰“0.5”。这就形成了人眼的亮度谱。

但是,上图中的亮度在自然界中并不是同样成比例的,例如图中的中灰,对应自然界中的亮度是纯白的20%。

将人眼亮度谱与自然界中实际亮度进行建模,就可以得到下面的图像:

图6 自然界与人眼感知的亮度对应

上图中纵轴是人眼感受的均匀灰阶,横轴是自然界中线性增长的亮度,它们之间是一种非线性映射的关系。在低亮度区域,人眼的敏感性较高,因此自然界中很小的亮度范围,都能够被人眼察觉;在高亮度范围,人眼的敏感度较低,因此自然界中的大范围的亮度变化,在人眼感知上却并不大。可以使用幂函数来拟合这种非线性的映射,用公式表示如下:

其中X是使用0-1之间的实数表示的输入亮度,Y是使用0-1之间实数表示的输出亮度,γ为认为设定的参数,不同的γ选择会产生不同的效果。这种通过调整γ的取值,来调整输入输出亮度之间映射关系的方式,我们称之为gamma校正。

图7:不同γ取值下,幂函数的图像

根据γ取值的不同,通过上图,我们能够发现gamma校正的不同效果:

  1. 当γ<1时,曲线上凸,输出值大于输入值。
  2. 当γ=1时,曲线为一条直线,输入与输出相等,不进行校正
  3. 当γ>1时,曲线下凸,输出值小于输入值

Gamma校正与图像显示

在传统的图像获取与显示过程中,将自然界中的真实场景转换为屏幕上显示出来的图像,往往需要经过两个主要的步骤:第一个是通过摄影设备,将外界的光信息转换为三维数组存储起来,也就是存储为图像信息,这一过程如前所述,需要通过光电转换函数进行非线性映射;第二个是通过显示设备,将图像信息转换为屏幕输出的光信息,同样,这一过程需要电光转换函数的参与。在这两个阶段中,光电转换函数与电光转换函数实际上都是幂函数,也就是都进行Gamma校正。

图8:真实场景到显示图像的两个转换阶段

首先,因为图像每个像素的取值在0-255之间,因此先进行归一化,将0-255这256个数线性映射到0-1之间。

接着,在图像获取阶段,摄像机中会使用一种encoding gamma函数进行gamma校正,这里的gamma值小于1。自然界中的亮度,首先在摄像机中进行归一化,映射到0-1之间,接着,将这个经过归一化的值输入encoding gamma函数中。最后将encoding gamma函数的输出值与0-255的像素值归一化结果进行比较,就能得到这个像素点的像素值。

显示阶段的gamma校正通常使用一种display gamma函数来完成,这里的gamma值大于1。 显示设备读取像素值后,进行归一化,然后将归一化结果输入display gamma函数中。将输出的值对应的自然光线进行输出,就是显示阶段做的工作。

理论上来说,上述两个阶段的gamma值乘积应该为1。因为两个gamma校正实际上做的是恰好相反的操作,一个是将自然光线存储为数字信息,另一个是将数字信息转换为光线。而为了使自然中的光线与显示设备产生的光线一致,显然这里的gamma值的乘积需要为1。但是,在实际操作中,这两个gamma值的乘积并不为1,原因有一下两点:1)对于传统显示设备来说,屏幕能够显示的亮度范围与颜色范围与实际情况相差好几个数量级;2)在真实的场景中,原始的场景填充了观察者的所有视野,而显示设备的亮度往往只局限在一个被周围环境包围的屏幕上。这两个差别使得感知对比度相较于原始场景明显下降了。

为了平衡这种现象,进而保证显示亮度在感知上和原始场景是一致的两个gamma的乘积并不是1,而是经过试验得到的其他值。在电影院这种漆黑的环境中,这个乘积为1.5,在明亮的室内这个值为1.125。个人电脑使用的一个标准叫sRGB,它使用的encoding gamma大约是0.45(也就是1/2.2)。这个值就是为了配合display gamma为2.5的设备工作的。这样,end-to-end gamma就是0.45 * 2.5 = 1.125了。

Gamma校正的意义

按照上一节所说,两段gamma校正实际上是一对逆过程,一个将光信息转化为数字信息,一个将数字信息转化为光信息。按照常理来说,并不需要复杂的非线性映射,只需要将归一化后的光信息记录下来,然后再让显示设备进行输出即可。从这种角度来说,gamma校正是一个不必要的操作。

这是一个合理的质疑。问题的根源在存储位宽上,如果存储位宽足够大,显然可以使用上述归一化记录方式进行处理,但是,实际生产与应用中的位宽是有限的。在传统的图像存储与显示标准中,一个像素点有三个通道,而每个通道只有8位。这也就意味着,图像的灰阶有限,与真实世界相比,差了很多数量级。因此,想要在有限灰阶上表现出近似于自然界的亮度,就需要对灰阶分配进行设计,这也是Gamma校正的意义。

由于人类感知的“中灰”,在实际的自然光线中对应于白光的20%的亮度。因此,如果完全按照自然光线的数值进行灰度处理,纯黑到中灰这一段在人类感知中占到一半的灰度,将只能由20%的灰阶进行表示,而剩下的一半会有80%的灰阶进行表示,这显然是不合理的。Gamma校正就可以解决这个问题。

在实际操作中,中灰对应的自然光线,显然会被映射为0.5的取值,也就对应128这一灰阶。这样的结果就是高亮度与低亮度部分分别占有一半的灰阶,这就会使得显示的图像的直观感受更接近于现实。

因此,gamma校正实际上是用来解决显示设备亮度灰阶不足的问题的。如果将图像存储的编码位宽扩大到32位,也就是能完全包含自然界亮度范围的时候,自然就不再需要进行gamma校正了,这种情况下,只需要将自然光线的亮度值记录下来,然后对应输出即可。但是,使用32位位宽来存储图像过于“奢侈”,因此gamma校正在实际生活中起到了广泛而巨大的作用。

HDR技术中的光电转换

前面提到的传统的Gamma校正方式,是针对传统CRT显示设备与LDR图像设计的,对应的标准是BT.1886标准。而BT.1886标准规定的的峰值亮度仅为100nits,它与传统CRT设备的显示能力相一致。目前大多数显示设备的显示能力早已突破100nits的限制,普通消费级显示器的亮度一般在200nits至500nits,商业级的监视器亮度可以达到1000nits至2000nits,实验室级别的监视器甚至可以高达4000nits至20000nits。

同时,现代数字运动图像传感器能够捕获动态范围到80dB或者比特深度达到14bit的线性视频信号。由于实践和历史原因,大多数专业视频制作系统都采用10比特,而消费者级别的视频和计算机图形学通常采用8比特。在HDR技术中,通常采用10比特或12比特。

显示设备亮度范围的提升、图像编码bit depth的提升,使得传统Gamma校正不适用于HDR的光电转换过程。如果强行使用Gamma校正进行转换,会在图像与视频中出现明显的分块与分环瑕疵。

针对上述问题,标准化组织规范了两种新型光电转换曲线:PQ曲线、HLG曲线。

PQ曲线

为了研究人类视觉系统及喜好,杜比实验室进行了一系列用户实验,以确定新的亮度范围和光电转换曲线。

首先确定新的显示亮度范围。该实验使用一个2K的数字电影放映机投影到一个21英寸的单色LCD面板上,形成一个高对比度的显示器,峰值亮度可以达到20000尼特,最小黑电平可以达到0.004尼特,色域为DCI-P3。测试序列共有三个序列集:一个用于检测黑色电平,一个用于检测白色电平,还有一个用于检测高亮电平。实验中观察者处在光线较暗的影院环境下(暗室),位于距离显示设备屏幕高度三倍远的地方。实验结果如下所示,根据实验结果,在亮度范围为0-10000nits时,各种信号水平的用户喜好度均超过了84%,因此Dolby提出的PQ EOTF曲线决定使用0-10000nits作为支持的显示亮度范围。

图9 杜比显示亮度实验结果

由于8比特的位深限制了使用更宽广的动态范围,因此需要定义新的OETF曲线为视频制作和传输提供更高的动态范围。Dolby实验室提出了新的OETF曲线,称为PQ曲线,目前已经被标准化为SMPTE ST 2084 [4]。

Dolby提出的PQ EOTF基于Barten 的CSF模型 [3]:

杜比PQ基于Barten CSF,构造了显示端的非线性EOTF,使量化误差形成小于Barten对比度阈值的PQ曲线。

图10 Barten曲线的CSF峰值

对不同类型的图像,人眼视觉敏感度不同。以不同的空间频率的图像(图像呈现不同距离的光栅)作为敏感度的测试,上图中画出了不同亮度下的敏感度CSF曲线,找到每个亮度下的CSF最大值,即该亮度下人眼对此光栅图像最为敏感,而此时的亮度差作为人眼可察觉的最小量度差阈值。将这些亮度差阈值连成随亮度变化的一条曲线,即得到Barten最小可觉差(JND just noticeable difference)曲线,如下图所示:

图11 Barten模型构造量化均匀的可觉差(JND)曲线

上图中虚线表示的折线段为Schreiber可觉差阈值曲线,在1-10000nits亮度范围内,呈对数关系,在0.01-1nits范围内为0.5幂指数关系。另一条虚线表示的弯曲线段即从Barten模型公式中得出的可觉差阈值曲线,该曲线下方即为不同亮度下的不可觉察的亮度差值,也就是量化梯度的取值范围。沿着这条阈值曲线构造的变换特性,便可以使用最少的量化比特数获得最佳量化效果。

杜比实验室按照Barten阈值曲线做出三条12bit量化曲线,分别是0.46JND,100nits;0.68JND,1000nits;0.9JND,10000nits,分别对应不同的量化误差和最大亮度。量化误差最小的是0.46JND,位于最下方。

以0.9JND,10000nits曲线为基础,得到杜比PQ。杜比PQ利用不同的函数规律来逼近Barten阈值曲线,低亮度区域为平方根关系(斜率-0.5),高亮度区域为斜率接近0的对数关系,低亮度与高亮度之间的中间区域则为变化的斜率。杜比PQ提出的EOTF由下式表示 [5]:

图12 PQ曲线与亮度阈值曲线

PQ曲线的优势

Barten Ramp作为一般图像的共同阈值,大量实验结果显示,Barten斜坡曲线规定了不同亮度水平下,不出现可见量化误差(JND)的最小对比度步长的上界,也就是允许的最大量化步长。当在这条曲线之下时,编码图像可以实现平滑渐变;而当超过这个临界值,也就是在Barten斜坡曲线之上时,会出现人眼可察觉的条带效应等量化失真(banding/contouring)。Barten Ramp曲线表明,在低亮度区域,人眼的视觉灵明度较低,因此可以分配较少的比特数进行编码;而人眼的视觉灵敏度在高亮度区域非常灵敏,因此编码时需要分配更多的比特数。新的EOTF的选择不仅要满足上述特征,还要尽可能的拟合或者贴近Barten曲线。这样不仅能够满足人眼视觉特性需求,不会造成量化失真,同时也能够有效利用有限的编码比特数。

图13 Barten Ramp量化误差 当曲线位于虚线上方时,会产生量化误差,处在下方时,不会产生误差。

为使用尽可能少的比特数表示尽可能多的信息,必须要确定不造成量化误差的最小比特数。如下图所示,当使用量化精度为10比特,值为2.4的gamma曲线时,其低于10nits的亮度区域均处于Barten Ramp曲线之上,会造成轻微的量化误差,并且其峰值亮度最大只能为100nits。因此,新的EOTF曲线不能使用10比特的gamma曲线。当使用量化精度为15比特gamma曲线时,整条曲线都在Barten Ramp之下,不会造成量化误差,峰值亮度可以达到10000nits。但需要面临的另一个问题是,15比特的gamma曲线会浪费太多的比特数在高亮度区域。除此之外,目前的视频传输和处理系统绝大多数都是基于10比特进行操作的,采用15 比特gamma编码不仅带来传输压力,还需要对市场上大部分视频传输和制作系统进行更新换代。

图14 曲线对比图(1)

如下图所示,如果使用13比特的对数曲线时,与gamma曲线相反,又会在低亮度区域分配更多的比特数。同时可以看到,用于HDR图片存储的16比特的OpenEXR对应曲线在Barten阈值之下,不会造成可见量化误差。当采用12比特的PQ曲线作为新的EOTF时,由下图可以看出,其很好地拟合了Barten Ramp,因此不仅符合了人眼视觉系统地特性,而且充分利用有限的比特数进行高效合理的编码。这也是Dolby Vision推荐使用12比特量化的原因,HDR10等使用10比特量化精度,在低亮度区域会造成轻微的量化误差,但考虑后续分发过程的编码量化误差将掩盖上述误差,在实际应用中影响并不大。

图15 曲线对比图(2)

下边两张图展示不同亮度水平下分别采用Gamma曲线和PQ EOTF进行编码的编码字利用率。纵轴使用百分比作为度量,100%对应的峰值亮度为10000nits。Gamma2.4编码在图像亮度范围为0-0.01nits的部分几乎不分配编码字,图像阴影部分分配的编码字也非常少。并且,随着峰值亮度的增加,其在大多数物体所在的亮度范围内以及白光范围内分配的编码字逐渐减少;而使用PQ编码,不同峰值亮度水平下很暗的部分(0-0.01nits)以及阴影部分的细节处都分配了一定的编码字。但是在峰值亮度变化时,亮度范围1-1000nits的范围分配的编码字差值很小。

图16 PQ曲线与Gamma曲线的码字利用率对比

HLG曲线

另外一种适用于HDR的光电转换函数是HLG(Hybrid-Log Gamma)。与PQ绝对映射不同,HLG是一种相对映射。相对于PQ曲线来说,HLG的优势在于可以向下兼容传统的Gamma曲线。

在光电转换函数的设计过程中,为了增加高光部分的对比度,通常会对Rec.709中的Gamma OETF曲线加入一个拐点,如下图所示。也就是说,可以通过将低亮度区域设计为传统的Gamma曲线,在拐点后设计为另一种适用于高亮度区域的转换曲线,就可以实现对传统Gamma曲线的兼容。当拐点位置设计在最高亮度(参考白电平)的85%时,最大曝光可以改善为原来的5倍。这种方法虽然改变最大曝光,但由于拐点位置没有标准化,而且对相机调校的要求很高,这种方法实现起来有一定困难。

图17 转换方程拐点

根据韦伯定律,图像高亮区域感知量化的阈值基本是一个恒定常数。因此,图像高亮区域使用对数形式的OETF能够利用给定比特数获得最大的动态范围。而在图像暗部,如德维斯-罗斯定律所定义,当亮度逐渐变小时,可见量化误差会越来越明显。因此,低亮度区域部分的OETF可以使用gamma曲线,因为gamma曲线非常符合德维斯-罗斯定律的约束。综上所述,当动态范围增加时,一个理想的OETF应当由两部分组成:低光部分使用传统的gamma曲线;而高亮区域使用对数形式的OETF。这样就形成了新的可用于高动态范围的HLG OETF曲线

其中L为显示亮度,V为信号电平值,N为亮化水平(对于8比特的视频N=220;对于10比特的视频N=876)

HLG(Hybrid-Log Gamma),是由BBC和NHK提出的一种新的标准,规定了输入端的光电转换特性(OETF)——Hybrid-Log Gamma曲线。HLG曲线分为两段,在线性光亮度较小时,其与SDR的gamma曲线重合,当亮度较高时,其曲线呈现对数特性。在输出端,EOTF定义为加入了系统gamma和亮度调整的OETF的逆。支持10比特量化和最大亮度4000nit。

HLG曲线的数学表达式如下:

其中,E’是电平信号,E表征光照强度。变量r为参考电平,一般取0.5。a、b、c均为常量,其值分别为0.17883277、0.28466892、55991073。

图18 HLG曲线与传统SDR-Gamma曲线对比(BBC)

在拍摄端使用HLG OETF,在显示端需要定义对应的EOTF才能更好地再现场景。为了适配HLG OETF,相应的EOTF应当满足以下条件:(1)保留创作者的渲染意图;(2)能够适配从黑电平到峰值白电平的整个动态范围;(3)减小量化误差。因此,相应的EOTF定义为:

其中

为显示面板的显示亮度;

表示场景的相对亮度;γ表示系统gamma值,取值大小与观看环境相关;而参数α和β分别控制对比度和亮度,它们共同控制着显示的峰值亮度和黑电平水平。

根据HLG OETF的数学模型可以看出,HLG的低亮度部分与传统的gamma曲线完全吻合,因此可以不经过任何处理直接显示在现有的SDR显示器上,其10比特的信号传输制作过程与现有的SDR系统完美兼容。另外,由于不需要元数据,因此信号是独立于显示器。

参考文献

[1] D. B. Judd, “Report of U.S. Secretariat Committee on Colorimetry and Artificial Daylight.,” in: Proceedings of the Twelfth Session of the CIE, vol 1 pp11 Stockholm, 1951.

[2] Barten, “Formula for the Contrast Sensitivity of the Human Eye.,” in: Proc. SPIE-IS&T, 2004.

[3] International Telecommunication Union, “Recommendation BT.2246-6: The present state of ultra-high definition television,” 2017.

[4] SMPTE, “Standard ST 2084: High Dynamic Range Electro Optical Transfer Function of Mastering Reference Displays,” 2014.

[5] S. Miller, “Perceptual Signal Coding for More Efficient Usage of Bit Codes,” in: Motion Image Journal, SMPTE, 5 2013.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
媒体处理
媒体处理(Media Processing Service,MPS)是智能、强大、全面的多媒体数据处理服务,行业支持最全面的音视频编码标准,基于自研编码内核和AI算法,提供音视频转码和增强、媒体智能、质检评测等能力,帮助您提升媒体质量、降低成本,满足各类场景的音视频处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档