如何让渣画质图片达到逼真效果，试试GAN吧

AI科技大本营

发布于 2018-04-26 13:23:11

7940

发布于 2018-04-26 13:23:11

文章被收录于专栏：AI科技大本营的专栏

翻译 | 梁红丽

编辑 | Just

【AI科技大本营导读】在最终视觉呈现效果上，现有的用于极限学习图片压缩的算法似乎都不尽人意，本文作者则使用了 GAN，允许选择性地保留一些区域，同时在保持语义完整的基础上，完全合成图像的其余部分，尤其在低比特率条件下，与 BPG 相比，GAN 的方法获得了更高的 mIoU。

以下内容摘译自论文 Generative Adversarial Networks for Extreme Learned Image Compression：

本文中，我们提出一种基于生成对抗网络（Generative Adversarial Networks, GANs）的框架，该框架用于极限学习图片压缩。与已有方法相比，在比特率大幅降低的情况下得到了视觉上令人欣喜的结果。这一结果的实现，得益于学习压缩的 GAN 模型和生成器/解码器的结合。其中，生成器/解码器作用于全分辨率图像和多模态分类器集合训练。

此外，我们的方法可以完全合成解码图片中的不重要区域，如街道、树，这些标签由原始图片提取的语义标签图得到，因此该方法只需要存储保留区域和语义标签图。用户调查证实，对于低比特率而言，我们的方法要优于当前任何其它方法，相比 BPG，我们的（压缩）方法能保存原图片的 67%。

▲ 图 1 用对抗损失目标函数训练的全局生成压缩网络得到的图片和对应的 BPG 图片。

▌GAN 用于极限图片压缩

全局生成压缩

我们提出的用于极限图片压缩的 GAN 可看做 GAN（有条件的）和学习压缩的结合。用编码器 E 和量化器 q，我们将图片 x 编码为压缩表示

，该表示选择性地与噪声 v 联系，v 由前变量

得到，用来组成隐藏向量 z。解码器/生成器 G 生成图片

，对于（无条件的）生成压缩，可以用通过

、由鞍点目标来表示：

因为上式的后两项不依赖于分类器 D，因此它们对优化无直接影响，上式可写为：

选择生成压缩

对于全局生成压缩和前文所述的有条件的变体，E 和 G 自动在整幅图片上权衡保存和生成比率，无需任何引导。这里，我们考虑一种不同的设置，即指示网络哪部分应该保存、哪部分应该合成。我们将这一设置称为选择生成压缩（SC），概览见图2(b)。

▲ 图 2 本文提出的压缩模型结构。E 为编码器，对图像 x 或 x 和语义标签图 s 编码；q 将隐藏代码 w 量化到

；G 是生成器，生成解压的图片

；D 为分类器，用于对抗训练。对于 SC，F从 s 中提取特征，热成像的子样本和

相乘（pointwise）进行空间比特分配。

▌实验结果

▲ 表 1 Cityscapes 的用户调查定量偏好结果（%）。和其他压缩方法生成的结果相比，调查对象对我们的 GC 方法生成的图片更加偏爱。对相近的 bpp，我们的方法明显更受青睐。平均来看，我们的方法只在比特率增大一倍时比就会比 BPG 略逊一筹。

表 2 ADE20k 的用户调查定量偏好结果（%），对相近 bpp，我们的方法更受欢迎。

▲表 3 Kodak 的用户调查定量偏好结果（%），bpp 为 0.065 时我们的方法比 BPG 更受欢迎，比特率下降了 45%。

▲图 5 左：分别是 GC 网络在 Cityscapes 验证集上的平均 IoU（bpp 的函数）、在 G 和 D 的语义标签图（semantics）训练的平均 IoU、用 MSE 损失（MSE）训练的平均 IoU。右：SC 网络分别在 RI（instance）和 RB（box）模式下训练的平均 IoU。

▲图 6 原始的 Kodak 图片 13 和用户调查中使用的解压图片，解压图片用 C=4 时的 GC 网络得到，同时显示解压的 BPG、JPEG、JPEG2000 和 WebP 格式的图片。如果一个编解码器不能产生 0.036bpp 的输出，我们就为该编解码器选择可用的最低比特率。

▲图 7 用 SC 网络集合不同类别，C=8。除 no synth 之外，其他图像都合成了以下类别：植被、天空、人行道、车辆、墙。左下角热成像图的合成区域以灰色显示。根据选择生成，我们显示了每张图的 bpp 和相对保存百分率。

▲图 8 SC 网络生成的示例图（SC=4），左图合成了道路、植被、天空、人行道、车辆、墙，中间的图加了建筑。右图是可支持的最低 bpp 下的 BPG 图像。

▲图 9 SC 网络得到的示例图（C=8），保存一个箱形区，其他区域进行合成。

▲图 10 SC 网络在 C=8 时生成的 ADE20k 验证图片，左图保存随机选取的区域，用 RI 训练，右图保存箱形区域，用RB训练。

▌讨论

我们提出了一种学习压缩的 GAN 模型，mIoU 这些数据都表明，它在低比特率时的表现都优于现有算法。而且，我们的网络可以无间断地将保存和生成的图片内容结合，再用正则结构合成内容来生成逼真的图片。

未来前景广阔的研究方向有：为 GC 建立控制比特空间分配的机制、将 SC 和特征信息结合。此外，将上下文模型嵌入我们的方法也会很有趣，例如，调整结构使其扩展为更大的图片。

作者：Eirikur Agustsson, Michael Tschannen, Fabian Mentzer, Radu Timofte, Luc Van Cool 原文链接： https://data.vision.ee.ethz.ch/aeirikur/extremecompression/#results 论文链接：https://arxiv.org/pdf/1804.02958.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-13，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能