首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | 极端图像压缩的生成对抗网络,可生成低码率的高质量图像

学界 | 极端图像压缩的生成对抗网络,可生成低码率的高质量图像

作者头像
机器之心
发布2018-05-08 15:42:56
1K0
发布2018-05-08 15:42:56
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Eirikur Agustsson等

机器之心编译

参与:白妤昕、刘晓坤

本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可以根据原始图像的语义标签映射,在解码图像中完全合成非主要的区域。用户调查研究证实,对于低码率,本文提出的方法明显优于最先进的方法 BPG。

图 1:以对抗损失训练得到的全局生成压缩网络产生的图像,以及相应的 BPG 结果对比 [1]。

引言

基于深度神经网络(DNN)的图像压缩系统,简称深度压缩系统,近来已成为热门研究领域。

图 2:本文提出的压缩网络的结构。E 是图像 x 和可选的语义标签映射 s 的编码器。q 将潜在代码 w 量化为 w hat。G 是生成器,产生解压缩的图像 x hat,D 是用于对抗训练的判别器。对于选择生成压缩(SC),F 从 s 中提取特征,并且二次采样的热图乘以 z hat(逐点)以进行空间位分配。

这些系统在感知度量 [4-8] 上通常优于当前最佳的工程编解码器,例如 BPG [1]、WebP [2] 和 JPEG2000 [3]。除了在自然图像上可达到更高的压缩率,它们也很容易适用于特定的目标领域,如立体图像或医学图像,以从压缩表征 [9] 中直接实现高效处理和索引。但是,对于每像素低于 0.1 位(bpp)的码率,这些算法仍然会导致质量严重下降。一般来说,当码率趋向于零时,保留全部图像内容变得愈发困难,并且诸如峰值信噪比(PSNR)或多尺度结构相似性(MS-SSIM)[10] 等常用的失真度量也会失去意义,因为这些度量更关心局部(高熵)结构即纹理的保持。为了进一步改善深度图像压缩,有必要开发超越 PSNR 和 MS-SSIM 的训练目标。对抗性损失 [11] 有望实现这一目标。最近这一方法被证明可以捕获全局语义信息和局部纹理,训练出强大的生成器,从语义标签映射产生有视觉吸引力的高分辨率图像 [12,13]。

在本文中,研究者提出并研究了基于生成对抗网络(GAN)的极端图像压缩框架,其中图像的码率低于 0.1 bpp。他们提出了一个基本的 GAN 公式,用于深度图像压缩,从而生成不同程度的内容。与先前的深度图像压缩技术相比,该技术将对抗损失应用于图像补丁的伪像抑制 [6,14] 和纹理细节生成 [15] 或缩略图表征学习 [16],该框架的生成器/解码器由多尺度判别器训练,适用于全分辨率图像 [13]。

我们研究两种操作模式(对应于无条件和有条件的生成对抗网络 [11,17]),即

  • 全局性生成压缩(GC),保留整体图像内容,同时生成不同尺度的结构,例如建筑立面上的树叶或窗户的树叶;
  • 选择性生成压缩(SC),保留语义标签映射中完全生成图像的某些部分,同时高度保留用户定义区域的细节。

GC 的典型用例是在带宽受限的场景,其中我们需要尽可能地保留完整图像,却没有足够的空间存储原始像素,而 GC 在这里可以合成内容而不是块状/模糊斑点。SC 可以应用于视频通话场景,人们希望完全保留视频流中的人像,但视觉上令人愉悦的合成背景也能和真实背景达到同样的效果。在 GC 操作模式下,图像被转换成比特流并使用算术编码进行编码。SC 可以使用现成的语义/实例分割网络(例如 PSPNet [18] 和 Mask R-CNN [19])获得原始图像的语义/实例标签映射,并将其存储为向量图形。就编码成本而言,该框架实现了更小的独立于图像维度的计算代价;另一方面,压缩图像的大小和从语义标签映射生成的区域成比例地减小,在多数情况下也能明显降低存储成本。

一项关于 GC 的用户综合研究表明,本文提出的压缩系统在视觉上产生了比 BPG [1](当前最先进的工程压缩算法)和最近提出的基于自编码器的深度压缩(AEDC)系统更好的结果 [8]。特别是对于 Cityscapes 数据集中的街景场景图像,即使 BPG 使用的位数超过两倍,用户也更喜欢本文提出系统生成的图像。据作者所知,在用户调查中,这是首次深度压缩方法胜过 BPG 图像的案例。在 SC 操作模式下,该系统可以将保存的图像内容与合成的内容无缝结合,即使在跨越多个目标边界的区域也是如此。通过部分生成图像内容,该系统可以实现超过 50%的码率缩减,而图像质量不会明显降低。在这两种情况下,通过原始图像和重建图像的语义标签映射之间的平均交并比(mIoU)度量的语义信息与两个基线 [1,8] 相比,保存得更完好。

图 3:由 C = 8 的 GC 网络产生的图像,以及 BPG 和 AEDC 的相应结果。

图 4:由 GC 网络(左:C = 4;右:C = 8)产生的图像示例以及 BPG 的相应结果。

图 6:原始柯达图像 13 以及用户调查中使用的解压缩版本(本文提出的),使用 C = 4 的 GC 网络生成。此外还提供了图像的解压缩 BPG、JPEG、JPEG2000 和 WebP 版本。如果编解码器无法输出低至 0.036bpp 的图像,则选择该编解码器的最低分辨率。

论文:Generative Adversarial Networks for Extreme Learned Image Compression(用于极端学习图像压缩的生成对抗网络)

论文地址:https://arxiv.org/abs/1804.02958

摘要:我们提出了一个基于生成对抗网络(GANs)的极端学习图像压缩框架,与以前的压缩方式相比,其生成的图像码率更低但视觉效果更令人满意。借助学习压缩的 GAN 公式和一个在全分辨率图像上运行的生成器/解码器,并与多尺度判别器一起训练,就可以达到这种效果。此外,我们的方法可以根据从原始图像中提取的语义标签映射,在解码图像中完全合成非主要的区域(例如街道和树),因此仅需要存储保留区域和语义标签映射。用户调查研究证实,对于低码率,我们的方法明显优于最先进的方法,与次佳方案 BPG 相比,码率节约高达 67%。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档