MPEG中的数据压缩综述

用户1324186

发布于 2019-05-08 15:38:54

1.7K0

发布于 2019-05-08 15:38:54

文章被收录于专栏：媒矿工厂

本文为媒矿工厂编译的技术文章

原标题：Data compression in MPEG

作者：Leonardo Chiariglione

翻译整理：虞盛炜

引言

提起MPEG，大多数人更关心的是MPEG的音视频标准。不太为人所知但可能非常重要的是，MPEG已经开发了一些用于压缩各种其他数据类型的标准，例如压缩点云数据等，如下图所示。

图1 数据类型和与之相关的MPEG标准

视频

这里简要列出了表中提到的MPEG提出的与视频编码相关的标准。

MPEG-1和MPEG-2都产生了广泛使用的视频编码标准。

MPEG-4则更加丰富：它从第2部分“可视化”开始，然后第9部分“参考硬件描述”，该标准支持用VHDL (VLSI硬件描述语言)表示的标准参考硬件描述。第10部分仍然是高级视频编码标准。第29、31和33部分是开发选项1“视频压缩标准”的三次尝试的结果(以一种简单但不精确的方式，不需要支付版税的标准)。

MPEG-5目前有望成为一个标准，包括两个部分：第1部分“基本视频编码”（EVC）将有一个基础层/配置文件，这将可能成为选项1和第二个层/概要文件，预期性能比HEVC好约25%，预计专利持有者将在两年内公布许可条款；第2部分“低复杂度增强视频编码” (LCEVC)将是一个两层视频编码标准。下层不绑定任何特定的技术，可以是任何视频编解码器；上层用于扩展现有视频编解码器的能力。

MPEG-7是关于多媒体内容描述的。有不同的工具来描述视觉信息：第3部分“可视化”是一种压缩形式，因为它提供了描述颜色，纹理，形状，运动，本地化，面部识别，图像签名和视频签名的工具；第13部分“用于可视化搜索的紧凑描述符”可用于计算图像的压缩视觉描述符。它的一个应用是获取例如用手机捕获的图像的更多信息；第15部分用于视频分析的紧凑描述符允许管理和组织视频内容的大规模数据库，例如，查找包含特定对象实例或位置的内容。

MPEG-C是视频技术标准的集合。第4部分“媒体工具库”是视频编码工具（称为功能单元）的集合，可以使用MPEG-B第4部分“编解码器配置表示”中标准化的技术进行组装。

MPEG-H第2部分“高效视频编码”（HEVC）是最新的MPEG视频编码标准，与AVC相比，其压缩率提高了60％。

MPEG-I是沉浸式技术的新标准，仍在开发中。第3部分“多功能视频编码”（VVC）是开发视频压缩标准的持续项目，其压缩效率比HEVC高50%；第7部分“沉浸式媒体元数据”是当前开发压缩全向视频标准的项目，该标准允许头部的有限平移运动。6自由度（6DoF）和光场的探索正在进行中。

音频

在这里简要列出表中提到的MPEG提出的音频编码相关标准。

MPEG-1第3部分“音频制作”，其中包括基本的数字音频标准，即MP3。

MPEG-2第3部分“音频”将MPEG-1的立体声用户体验扩展到多声道；第7部分“高级音频编码”是MPEG-4 AAC的基础标准。

MPEG-4第3部分“高级音频编码”（AAC）目前正支持着约100亿个设备和软件应用，并每年增长5亿个单元。

MPEG-D是不同音频技术的集合：第1部分“MPEG环绕声”在低比特率应用中提供立体声和多声道演示之间的有效桥接，因为它可以在相同的48 kbit / s传输预算内传输5.1声道音频；第2部“分空间音频对象编码”（SAOC）允许对混合对象的多通道信号进行非常有效的编码；第3部分“统一语音和音频编码”（USAC）将语音编码和音频编码工具组合成一种算法，其性能在所有比特率下均等于或优于AAC，其可以编码多声道音频信号，还可以对语音内容进行最佳编码；第4部分“动态范围控制”是任何类型的MPEG音频编码技术的后处理器，它可以在播放时修改解码信号的动态范围。

2D/3D网格

多边形网格可用于表示2D图像或3D对象的近似形状。 3D网格模型用于各种多媒体应用，例如计算机游戏，动画和模拟应用。

MPEG-4提供各种相关的压缩技术。第2部分“可视化”提供了2D和3D网格压缩（3DMC）的标准，该标准用于通用但静态的3D对象，由其表面的一阶（即多边形）近似表示。 3DMC具有以下特征：

压缩：对3D模型的有损压缩几乎无损
增量呈现：无需等待整个文件下载即可开始呈现
错误恢复：3DMC具有内置的错误恢复功能
渐进式传输：根据观看距离的不同，提供不同的精度

第16部分“动画框架扩展”（AFX）为形状、外观和动画提供了一组压缩工具。

面部/身体动画

假设您有一个想要从远程进行动画的人脸模型。您如何以一种低码率的方式表示使模型具有动画效果的信息？MPEG-4第二部分“可视化”通过它的“面部动画参数” (FAP)回答了这个问题。

FAP定义在两个级别：高水平中包括视素(音素的视觉等价物)和表情(喜悦、愤怒、恐惧、厌恶、悲伤、惊讶)；低水平中包括66个与面部特征点的位移或旋转相关的FAP。下图中受FAP影响的特征点用黑点表示，其他特征点用小圆圈表示。

图2 面部动画参数

可以使用FAP流来为接收器中的默认面部模型设置动画，或者可以通过下载具有特定背景图像、面部纹理和头部几何形状的面部定义参数（FDP）来初始化自定义面部。

MPEG-4第2部分对身体动画使用了类似的方法。

场景图

到目前为止，MPEG还没有开发出一种场景描述技术。1996年，当MPEG-4标准的开发需要它时，它采用了虚拟现实建模语言(VRML)，并将其扩展到支持MPEG特定的功能。当然，压缩不能从列表中删除。因此，在MPEG-4第11部分“场景描述和应用程序引擎”中指定的场景二进制格式(BiFS)诞生了，它允许高效地表示动态和交互式表示，包括2D和3D图形、图像、文本和视听材料。这种表示的表示形式包括对不同场景组件的空间和时间组织的描述，以及用户交互和动画。

在MPEG-I中场景描述再次扮演着重要的角色。但是，这次MPEG甚至不打算选择场景描述技术。它将定义一些场景描述参数的接口。

字体

目前有数千种字体可用作多媒体内容的组件。它们通常使用远程终端上可能无法使用的自定义设计字体。为了确保内容的真实外观和布局，字体数据必须嵌入文本对象作为多媒体表示的一部分。

MPEG-4第18部分“字体压缩和流媒体”定义并提供两种主要技术：OpenType和TrueType字体格式；字体数据传输机制，可扩展的字体流格式、信令和标识。

多媒体

多媒体是某种形式的多种媒体的组合。MPEG中最接近多媒体的“东西”可能是称为多媒体应用程序格式的标准。然而，MPEG-A是一个针对特定应用程序的媒体集成包，并不定义任何特定的媒体格式。它只指定如何组合MPEG(有时还包括其他)格式。

MPEG-7第5部分“多媒体描述方案”(MDS)指定了非可视和音频的不同描述工具，即通用描述工具和多媒体描述工具。通过包含大量来自基本视听结构的MPEG-7描述工具，MDS支持创建描述结构、集合和用户首选项的描述，以及用于添加视听描述工具的挂钩，如图3所示。

图3 MDS描述工具的不同功能组

神经网络

对神经网络压缩的要求在移动人工智能中得到了体现。经过18个月的紧张准备，包括需求的制定、测试材料的确定、测试方法的定义以及起草一份征求建议书(CfP)，在2019年3月的第126次会议上，MPEG分析了行业领袖提交的9项技术。这些技术提出压缩神经网络参数，以减小其传输尺寸，而不只是适度地降低其在特定多媒体应用中的性能。MPEG-7第17部分“用于多媒体的神经网络压缩描述和分析” 就是形成的新标准。

XML

MPEG-B第1部分“用于XML的二进制MPEG格式”（BiM）是大约20年前开始的活动，当时由XML模式定义的MPEG-7描述符由MPEG-7第1部分“系统”以标准方式压缩。随后MPEG-21需要XML压缩，该技术在第15部分“二进制格式”中得到了扩展。

为了达到高压缩效率，BiM依赖于编码器和解码器之间的模式信息。它还提供了碎片机制以提供传输和处理灵活性，并定义了编译和传输模式知识信息的方法，以便在接收端无需先验模式知识的情况下实现XML文档的解压缩。

基因组

基因组是数字化的，可以被MPEG-G“基因组信息表示”技术压缩。许多已建立的用于压缩其他MPEG媒体的压缩技术已经在基因组压缩中得到了很好的应用。 MPEG目前正在忙于开发MPEG-G参考软件，并正在研究需要压缩的其他基因组领域。更具体地说，MPEG计划在2019年7月（第128次）会议上发布一份压缩基因组注释提案。

点云

3D点云可以通过多个摄像头和深度传感器捕获，其中点数可以达到几千到几十亿，并且具有颜色，材料属性等属性。

MPEG正在开发两种不同的标准，其选择取决于点云是密集的（这是在MPEG-I第5部分“基于视频的点云压缩”中完成）还是稀疏的（MPEG-I第9部分“基于图形的PCC”）。两种标准中的算法都是有损的、可扩展的、渐进的，并且支持对点云子集的随机访问。

MPEG计划于2019年10月发布基于视频的PCC作为FDIS，并于2020年4月发布基于图形的PCC点云压缩作为FDIS。

传感器/执行器

当MPEG考虑在用户所在的真实世界和MPEG媒体产生的任何类型的虚拟世界之间进行信息交换时，MPEG认为需要解决从传感器和数据到执行器的数据压缩问题。因此，MPEG承担了提供标准交互技术的任务，允许用户将他们的真实传感器和执行器上下文映射到虚拟世界传感器和执行器上下文，反之亦然，实现虚拟世界之间的沟通。图4描述了MPEG-V“媒体上下文和控制”标准。

图4 真实世界和虚拟世界之间的通信

MPEG-V标准定义了几种数据类型及其压缩：第2部分“控制信息”指定实际和虚拟世界中的控制设备互操作性；第3部分“感官信息”指定基于XML模式的感官效果描述语言来描述触发人类感官的致动器命令，如光、风、雾、振动等；第4部分“虚拟世界对象特征” 虚拟世界对象的基本属性类型和特性，虚拟世界对象由虚拟人物和通用虚拟对象共享；第5部分“交互设备的数据格式” 指定了交互设备(执行器命令和感知信息)的数据格式的语法和语义，这些数据格式是在控制交互设备(执行器)和来自真实世界和虚拟世界的交互设备(传感器)的感知信息中实现互操作性所必需的；第6部分“通用类型和工具”指定跨MPEG-V部件使用的数据类型和工具的语法和语义。

MPEG-IoMT（Internet of Media Things）是一般IoT上下文到MPEG开发的MPEG媒体的映射。 MPEG-IoMT第3部分“IoMT媒体数据格式和API”还解决了基于媒体的传感器和执行器数据压缩的问题。

What’s next？

MPEG做了一些探索性的工作，发现现有的一些标准可以扩展到新的应用领域。例如将MPEG-21转换为智能合约，可用于工业自动化中由机床生成的数据等。

结论

MPEG音视频压缩标准是媒体行业的主要标准。MPEG将继续开发这些标准，同时研究其他数据类型的压缩，以便在市场成熟时能够使用标准。点云和从高速测序机读取DNA只是其中的两个例子，说明了MPEG如何通过预测市场需求，准备利用其压缩标准及时为行业服务。

参考文献

[1]https://www.linkedin.com/pulse/data-compression-mpeg-leonardo-chiariglione/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-04-09，如有侵权请联系 cloudcommunity@tencent.com 删除

文件存储