前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MPEG的未来:从媒体压缩到数据压缩和AI支持的数据编码

MPEG的未来:从媒体压缩到数据压缩和AI支持的数据编码

作者头像
用户1324186
发布2020-11-09 11:48:20
3.5K0
发布2020-11-09 11:48:20
举报
文章被收录于专栏:媒矿工厂

本文来自前MPEG主席Leonardo Chiariglione的Linkin文章,从媒体压缩谈到了数据压缩和AI支持的数据编码。

通信和标准是同义词:传达我们信息的符号必须被大家认同,即已成为标准。人类留下了几千年前的信息痕迹,例如在阿尔塔米拉山洞中发现的野牛的图像。

我们也有一些较新的消息痕迹,这些消息我们经常听说,或者是已经获得的几千年前的语法和语义。下图是来自中国,印度河谷,尼罗河谷和美索不达米亚的例子。

回顾几百年前,我们注意到不同的方法已经被用来设置符号。 在下图中,按国王定义的顺序使用了发明人和成功的企业家的符号,这些符号取自先前的字母并经过了技术委员会同意。

莫尔斯电报在1844年得到证明,其使用像火一样蔓延开来。 这种市场现实促使建立了第一个现代(国际)标准组织–国际电联,其R系列建议是关于电报传输的。PAL在1962年获得Telefunken的专利,并于1963年提交给EBU,并在各个国家被采用为国家标准,并成为ITU-R建议624的一部分。日本维克多公司(JVC)于1976年发布了VHS盒式录像机,并开发了IEC IEC 60774-1“已录制的VHS录像带的互换性”。飞利浦和索尼于1982年发布了光盘,IEC则开发了IEC 60908 “光盘数字音频系统”。

在1980年代初期,通信标准领域的覆盖范围非常复杂:在ITU-T中,第XV研究组(SG XV)的第1工作组(WP 1)制定了语音标准,第2工作组制定了视频标准。ITU-R SG 10中为音频设置了标准, SG 11中为视频设置了标准。在ISO 中Technical Committee 42(TC 42)设定了摄影标准,TC 36 for Photography和Subcommittee 2 (SC 2) of TC 94为字符集设定了标准。在IEC 中SC 60 A设置音频记录的标准,SC 60 B设置视频记录的标准, TC 84设定视听设备的标准和SC 12A和G设定接收机的标准。

"The Mule,Foundation和MPEG"文章介绍了Mule如何将各种活动统一起来,涵盖了所有媒体的压缩,包括运输,为所有行业提供服务,同时又独立于行业,并且颠覆了由非通信孤岛到内容可以跨行业转移的市场现实,这一事实被称为行业融合,这种现象不是内在的而是外在的(由于the Mule的缘故)。

这只是the Mule到来的第一个也是更明显的影响。 但是,媒体标准正在发生更多革命。多路复用模拟组件(MAC)标准是一个整体,由下面的左图表示,其中在单个文档中指定了所有内容,包括从射频到呈现给用户的音频,视频和数据。Mule用独立但集成的标准结构代替了该整体结构,该结构可以独立使用,也可以与其他标准结合使用。

此结构在第一个(MPEG-1)标准中采用,并在以后产生的大多数标准中都得到保留。

  • 在MPEG-1中:Pt. 1系统,Pt. 2视频,Pt. 3音频
  • 在MPEG-2中:Pt. 1系统,Pt. 2视频,Pt. 3音频
  • 在MPEG-4中:Pt. 1系统,Pt. 2视频,Pt. 3音频,Pt. 10 AVC,Pt. 11 BIFS
  • 在MPEG-7中:Pt. 1系统,Pt. 3视频,Pt. 4音频,Pt. 5 多媒体
  • 在MPEG-H中:Pt. 1 MMT,Pt. 2 HEVC,Pt. 3 3D Audio
  • 在MPEG-I中:Pt. 2 OMAF,Pt. 3 VVC,Pt. 4沉浸式音频,Pt. 5 V-PCC,Pt. 9 G-PCC,Pt. 12 MIAF

同样,这条额外的历史片断展示了当一个国家希望将专有音频解决方案作为MPEG-2的一部分纳入其中时,如何在无政府状态和僵化之间找到中间立场。我的反对意见得到了解决方案的支持,该解决方案满足了促使该请求的需求。MPEG-2系统现在带有由注册机构管理的format_identifier字段,其值表示存在非标准格式。在确定实现与标准的一致性方面进行了另一项创新。我喜欢称其为人类社会通过将法律界定哪些行为合法,将特定行为是否合法的决定委托法庭来解决的问题。在电信领域,授权测试实验室用来确保来自不同制造商的设备可以连接到网络。但是,消费类电子产品和IT界没有类似的一致性测试概念。Mule根据以下原则指导建立测试实现一致性的方法的指南:·编码器应产生由标准软件解码器正确解码的比特流·解码器应该能够正确解码一致性测试比特流在数字运输领域进行了另一项根本的技术创新。在1980年代初期,国际电联开始了H.221建议的开发:视听电信服务中64至1920 kbit / s信道的帧结构。

在此标准中,每个八位位组的第8位承载服务信道。 在服务信道内,位1-8用于帧对准信号(FAS),位9-16用于位对准信号(BAS)。 音频始终由第一个B通道传送,例如 在前两个子信道中,“视频”和“数据”通过其他子信道减去分配给FAS和BAS的比特率。

The Mule充分利用了新环境。MPEG-1和MPEG-2标准使媒体世界步入正轨。值得注意的是,如下所示的大量标准适用于非常广泛的应用领域,通过定义全面的模型来创建不受行业“控制”的产品,例如在MPEG-V的情况下,在合作伙伴(P)和客户(C)的社区中开发了用于实到虚拟和虚拟到虚拟交互的标准)。

音频,视频和3D图形是需要压缩标准的重要领域,但是还有其他领域可以从压缩中受益。基因组学就是其中之一,因为高速测序仪可以读取活生物体的DNA,但要以存储大量重复性很大的数据为代价。 通过将数据与可比较的统计特征进行组合,与当前使用的算法相比,可以大大压缩这些数据。

神经网络也不是视听数据。由于其独特的功能,它们的使用正扩展到许多领域。但是,它们的性能越强,神经网络就越大,并且性能也在不断提高。可以将压缩应用于神经网络,以减少下载基于神经网络的应用程序所需的时间。

在所有事物都是等级制的组织中(也包括封建,混乱,虚伪,钝和无能),

Mule引入了一个扁平而流动的组织,该组织实际上以小组的形式专门进行工作,以临时方式组合起来,以解决由绿色区域主席组成的小组协调的多学科问题(绿色环中的绿色名称)。

等级制,封建制,混乱,虚伪,钝化和无能的组织具有许多高尚的组织实体,但是,由Mule创建的组织绝对是生产力最高的组织。

上图给出了汇总结果。但是,一如既往,成功并非一成不变。下图描述了最成功的标准及其主要应用领域:

毫无疑问,Mule的组织取得了成功。 但是那成功有多大呢?尽管有其所有局限性,但市场在下表中回答了这个问题,在该表中给出了以支持者为标准的设备和服务的价值。 我们所说的每年市场价值为1.5万亿美元,接近世界生产总值的2%。

在本文的前面,我讨论了从产品到标准的旧方法。上表显示,Mule从标准过渡到产品的方式具有更大的价值。但是新方法给图片增加了一个变数:标准中的专利持有人。使用可以收集的最佳信息,针对不同的标准对此进行了不同的管理。

  • MPEG-1:视频:没有已知许可证,音频:“开明”许可证
  • MPEG-2:视频与系统:好心人建立了专利池·MPEG-4:视觉:相同专利池,AVC:相同专利池,音频:不同专利池
  • MPEG-7:尝试创建一个被一个专利持有人阻止的专利池
  • MPEG-H:HEVC:3个专利池,> 10个SEP持有者不在专利池中,3D Audio:没有已发布的许可证
  • MPEG-I:VVC:没有消息(好消息?)

考虑到这种情况,the Mule认为,如果我们不采取行动,就有可能成为化石。的确,经过30年的发展,情况已经发生了很大变化:带宽的稀缺不再是限制因素,并不是每个人都在追求最好,有些人只是在寻找好处,市场已经有了许多标准提供商。为了应对这种变化的市场条件,人们进行了三项尝试来制定免版税标准。令人沮丧的结果是:·网络视频编码:带有FRAND声明的AVC基准·互联网视频编码:具有3个FRAND声明,性能优于AVC·浏览器的视频编码:1个无许可证声明有些人在ISO中工作,以使那些声明不允许使用其专利来声明其侵权技术的人承担义务。不幸的是,这是针对错误问题的正确解决方案。我们需要的是对要求保护的标准必要专利(SEP)的标识,该建议以表格的形式提出,但很少进行。确实,有化石存在灭绝的危险。

回到主题,下表显示了音视频3D图形的许多压缩标准,但还有大量的数据压缩标准。

根据这一证据,ISO的意大利成员UNI在2018年7月提议成立一个新的ISO数据压缩技术技术委员会,该提议被拒绝。那是一项缺乏战略分析的提案。在许多情况下,传统数据压缩技术的势头正在减弱,而人工智能在越来越多的工业应用中扮演着重要角色,并在使新数据类型受益的同时提高了现有数据类型的编码效率。但是什么是数据编码?将一种表示形式中的数据转换为更适合特定应用的等效表示形式。数据的语义必须尽可能保留,但我们也想“带出”对应用程序最重要的语义方面。然而,传统的“几乎没有相同质量的比特”压缩仍然是重要的领域。人工智能技术具有传统技术正在失去的势头。

此外,全球范围内的巨大研究工作将确保有可能利用以下领域的成果:

  • 表示学习:发现可有效解决AI任务的数据编码
  • 迁移学习:适应AI模型以处理不同数据
  • 边缘AI:将AI模型部署到边缘·模型集成:通过组合更简单的模型来创建更大的AI模型
  • 性能的可重复性:为AI模型在不同环境下提供相同水平的性能。

三十年的历史表明,标准很重要,因为它们可以确保应用程序的互操作性和集成性。由于没有组织致力于以AI为核心技术的数据编码标准,因此应该创建一个新的组织。MPAI –人工智能的运动图像,音频和数据编码是建立在上述策略分析之上的组织。它是一个非营利组织,其使命是促进数据的有效利用通过制定技术规范,可以对任何类型的数据进行编码和解码,尤其是使用人工智能等新技术,以及有助于在信息和通信技术系统中集成数据编码和解码组件的技术,以通过开发诸如框架许可和其他文书之类的知识产权指南(“ IPR指南”),弥合技术规范与其实际使用之间的差距。任何支持MPAI任务的法人实体都可以申请会员资格,只要它能够为有效使用数据而制定技术规范做出贡献。代表学术机构技术部门的个人也可以申请准会员资格,并在申请中说明其资格。下图给出了组织结构图。

MPAI是一个包容性组织,非成员可以:提交用例建议,促进将用例汇总到各个领域,参与需求的开发,准成员可以通过其技术充分参与MPAI标准的开发并为之做出贡献,主要成员可以:选举并参与MPAI治理,就政策事项进行投票。

通过应用MPAI社区准则,如果提议的成员同意,MPAI会在非公开会议上和非成员在公开会议上讨论使用案例的提案。公开会议上发起的技术提案的进一步讨论。可以通过电子邮件,论坛等在非成员参与的情况下继续进行。在用例阶段,对会议上与技术提案相关的MPAI文件的讨论和访问是开放的。除非大会决定禁止非成员参加,否则在要求阶段可能会继续在公开会议上讨论技术提案。非会员不能参加超出功能要求的阶段。在新的标准可能形成的用例中,MPAI给予了极大的关注,以确保有价值的想法被识别,改进并在可能的情况下转化为标准。

用例收集在按数据类型组织的文档中:静止图片,运动图片,音频,事件序列和其他数据。每种数据类型都细分为十个主要应用领域1. 媒体与娱乐2. 运输3. 电信公司4. 信息技术5. 航天6. 制造业7. 卫生保健8. 食品与饮料9. 科学技术10. 其他领域。然后使用以下结构描述每个用例

MPAI通过引入以下“商业需求”阶段来创新传统的标准组织工作计划

  • 第1阶段-用例(UC): 包括非成员在内的任何人都可以提出用例。 在可能适用于各个行业的紧密联系区域中进行收集和汇总。
  • 第2阶段–功能要求(FR): 确定并记录标准应支持的功能要求。 在此阶段以及之前的阶段,如果受影响的成员同意,则非成员可以参加MPAI会议。
  • 第3阶段–商业需求(CR): 制定了标准的框架许可。 打算为标准贡献技术的人员以合格多数批准了框架许可证。
  • 阶段4 –征集技术(CT): 发布征集,要求同时满足功能和商业要求的技术。 该标准的所有贡献者声明,他们将在FWL批准后根据FWL提供其SEP许可的条款。
  • 阶段5 –标准制定(SD): 标准是在共识的基础上由特定的开发委员会制定的。
  • 阶段6 – MPAI标准(MS):该标准的开发已完成。

MPAI成员声明,在发布SEP持有人许可条款后的一年内,他们将与其他会员的SEP(如果使用)签订许可协议。非MPAI成员应与SEP持有人签订许可协议以使用MPAI标准。

MPAI已经确定了涵盖视频,音频和数据的多个初始领域,这些领域涵盖了从基因组学到游戏应用程序的各种应用领域。五个区域已经达到FR阶段。其他领域正处于UC阶段。在下文中,给出了已经达到FR阶段的区域的简要描述。人工智能框架(MPAI-AIF)是一个领域,提供了一个基于AI或传统处理模块的标准框架。正在开发MPAI-AIF要求,以满足当前确定的面向应用的标准以及可能随着工作的进行而制定的其他标准的要求。

基于上下文的音频增强(MPAI-CAE)打算使用AI来改善用户在各种环境下的娱乐体验,通信,电话会议,游戏,后期制作,还原等,从而改善用户体验。 家庭,汽车,旅途中,工作室等。

集成基因组/传感器分析(MPAI-GSA)使用AI来理解和压缩结合基因组/蛋白质组学和其他数据(例如来自视频,运动,位置,天气,医疗传感器)的高通量实验的结果。 用例范围从个性化医学到智能农业。

AI增强视频编码(MPAI-EVC)是一种视频压缩标准,它通过使用基于AI的工具改进或替换传统工具来显着提高传统视频编解码器的性能,如下图所述,其中绿色圆圈代表可以 被基于AI的同类产品取代或增强

基于服务器的预测性多人游戏(MPAI-SPG)旨在最大程度地减少在线实时游戏中因高延迟或数据包丢失而导致的视听和游戏不连续性。 如果缺少来自客户端的信息,则将从与特定游戏有关的客户端收集的数据馈送到基于AI的系统,该系统会预测其数据丢失的客户端的移动。

多模式对话(MPAI-MMC)旨在使人机对话能够通过使用AI在完整性和强度上模拟人机对话。 下图描述了专注于情绪检测的处理模块的特定配置。

MPAI任务的第二个分支是弥合标准与其实际使用之间的差距。MPAI法规提供了框架许可(FWL)的概念,即SEP持有人采用的商业模式以无值的标准(无美元,%,日期等)将其IP货币化。在开始技术工作之前,活跃的成员(即打算为标准贡献技术的成员)采用FWL。

在技术工作期间:活跃成员声明,在标准获得批准后,他们将根据FWL提供SEP许可的条款。所有成员均声明,在发布SEP持有人许可条款后的一年内,他们将与其他会员的SEP(如果使用)签订许可协议。

非MPAI成员应与SEP持有人签订许可协议以使用MPAI标准。FWL的一个示例是:

  • 许可证覆盖全球,包括制造,使用和销售的权利
  • 为产品支付的使用费包括对内容使用编码器/解码器的权利
  • 产品由被许可人出售给最终用户
  • 包含编码器/解码器的产品的供应商可以代表其客户支付特许权使用费
  • 如果被许可人的年销售量超过N个单位,或者所支付的特许权使用费低于C 的上限,则从当日起收取R /单位的使用费
  • 特许权使用费计划按条款划分,其中第一个终止于日期
  • 从一个时期到另一个时期的增长百分比小于x%

FWL不得包含红色的实际值。MPAI致力于为数据压缩标准创建一个新的高级实用世界。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档