如何让渣画质图片达到逼真效果,试试GAN吧

翻译 | 梁红丽

编辑 | Just

【AI科技大本营导读】在最终视觉呈现效果上,现有的用于极限学习图片压缩的算法似乎都不尽人意,本文作者则使用了 GAN,允许选择性地保留一些区域,同时在保持语义完整的基础上,完全合成图像的其余部分,尤其在低比特率条件下,与 BPG 相比,GAN 的方法获得了更高的 mIoU。

以下内容摘译自论文 Generative Adversarial Networks for Extreme Learned Image Compression:

本文中,我们提出一种基于生成对抗网络(Generative Adversarial Networks, GANs)的框架,该框架用于极限学习图片压缩。与已有方法相比,在比特率大幅降低的情况下得到了视觉上令人欣喜的结果。这一结果的实现,得益于学习压缩的 GAN 模型和生成器/解码器的结合。其中,生成器/解码器作用于全分辨率图像和多模态分类器集合训练。

此外,我们的方法可以完全合成解码图片中的不重要区域,如街道、树,这些标签由原始图片提取的语义标签图得到,因此该方法只需要存储保留区域和语义标签图。用户调查证实,对于低比特率而言,我们的方法要优于当前任何其它方法,相比 BPG,我们的(压缩)方法能保存原图片的 67%。

▲ 图 1 用对抗损失目标函数训练的全局生成压缩网络得到的图片和对应的 BPG 图片。

▌GAN 用于极限图片压缩

全局生成压缩

我们提出的用于极限图片压缩的 GAN 可看做 GAN(有条件的)和学习压缩的结合。用编码器 E 和量化器 q,我们将图片 x 编码为压缩表示

,该表示选择性地与噪声 v 联系,v 由前变量

得到,用来组成隐藏向量 z。解码器/生成器 G 生成图片

,对于(无条件的)生成压缩,可以用通过

、由鞍点目标来表示:

因为上式的后两项不依赖于分类器 D,因此它们对优化无直接影响,上式可写为:

选择生成压缩

对于全局生成压缩和前文所述的有条件的变体,E 和 G 自动在整幅图片上权衡保存和生成比率,无需任何引导。这里,我们考虑一种不同的设置,即指示网络哪部分应该保存、哪部分应该合成。我们将这一设置称为选择生成压缩(SC),概览见图2(b)。

▲ 图 2 本文提出的压缩模型结构。E 为编码器,对图像 x 或 x 和语义标签图 s 编码;q 将隐藏代码 w 量化到

;G 是生成器,生成解压的图片

;D 为分类器,用于对抗训练。对于 SC,F从 s 中提取特征,热成像的子样本和

相乘(pointwise)进行空间比特分配。

▌实验结果

▲ 表 1 Cityscapes 的用户调查定量偏好结果(%)。和其他压缩方法生成的结果相比,调查对象对我们的 GC 方法生成的图片更加偏爱。对相近的 bpp,我们的方法明显更受青睐。平均来看,我们的方法只在比特率增大一倍时比就会比 BPG 略逊一筹。

表 2 ADE20k 的用户调查定量偏好结果(%),对相近 bpp,我们的方法更受欢迎。

▲表 3 Kodak 的用户调查定量偏好结果(%),bpp 为 0.065 时我们的方法比 BPG 更受欢迎,比特率下降了 45%。

▲图 5 左:分别是 GC 网络在 Cityscapes 验证集上的平均 IoU(bpp 的函数)、在 G 和 D 的语义标签图(semantics)训练的平均 IoU、用 MSE 损失(MSE)训练的平均 IoU。右:SC 网络分别在 RI(instance)和 RB(box)模式下训练的平均 IoU。

▲图 6 原始的 Kodak 图片 13 和用户调查中使用的解压图片,解压图片用 C=4 时的 GC 网络得到,同时显示解压的 BPG、JPEG、JPEG2000 和 WebP 格式的图片。如果一个编解码器不能产生 0.036bpp 的输出,我们就为该编解码器选择可用的最低比特率。

▲图 7 用 SC 网络集合不同类别,C=8。除 no synth 之外,其他图像都合成了以下类别:植被、天空、人行道、车辆、墙。左下角热成像图的合成区域以灰色显示。根据选择生成,我们显示了每张图的 bpp 和相对保存百分率。

▲图 8 SC 网络生成的示例图(SC=4),左图合成了道路、植被、天空、人行道、车辆、墙,中间的图加了建筑。右图是可支持的最低 bpp 下的 BPG 图像。

▲图 9 SC 网络得到的示例图(C=8),保存一个箱形区,其他区域进行合成。

▲图 10 SC 网络在 C=8 时生成的 ADE20k 验证图片,左图保存随机选取的区域,用 RI 训练,右图保存箱形区域,用RB训练。

▌讨论

我们提出了一种学习压缩的 GAN 模型,mIoU 这些数据都表明,它在低比特率时的表现都优于现有算法。而且,我们的网络可以无间断地将保存和生成的图片内容结合,再用正则结构合成内容来生成逼真的图片。

未来前景广阔的研究方向有:为 GC 建立控制比特空间分配的机制、将 SC 和特征信息结合。此外,将上下文模型嵌入我们的方法也会很有趣,例如,调整结构使其扩展为更大的图片。

作者:Eirikur Agustsson, Michael Tschannen, Fabian Mentzer, Radu Timofte, Luc Van Cool 原文链接: https://data.vision.ee.ethz.ch/aeirikur/extremecompression/#results 论文链接:https://arxiv.org/pdf/1804.02958.pdf

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-04-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏marsggbo

论文笔记系列-Neural Architecture Search With Reinforcement Learning

神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的。在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RN...

3943
来自专栏人工智能

机器学习-从高频号码中预测出快递送餐与广告骚扰

由头 1、笔者最近在做机器学习嘛,上次发了一篇文章,这周发现有大问题,此次算是对上篇的补充与说明。 2、算法基本完成,在进行收尾的工作,今天共享给大家思路,涉及...

2115
来自专栏机器之心

学界 | 谷歌云提出渐进式神经架构搜索:高效搜索高质量CNN结构

40712
来自专栏计算机视觉战队

这样可以更精确的目标检测——超网络

暑假的“尾巴”很多人都抓不住了,因为不知不觉,新的学期要开始了,几家欢喜几家愁,但是会想起学生时代的我,还是特征憧憬新的学期到来,那种激动的心情无法用美丽的辞藻...

2174
来自专栏AI科技大本营的专栏

深度学习系列:卷积神经网络结构变化——可变形卷积网络deformable convolutional

作者 | 大饼博士X 上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks,STN创造性地...

47210
来自专栏SeanCheney的专栏

《Scikit-Learn与TensorFlow机器学习实用指南》 第10章 人工神经网络

鸟类启发我们飞翔,牛蒡植物启发了尼龙绳,大自然也激发了许多其他发明。从逻辑上看,大脑是如何构建智能机器的灵感。这是启发人工神经网络(ANN)的关键思想。然而,尽...

1823
来自专栏ATYUN订阅号

探索生成式对抗网络GAN训练的技术:自注意力和光谱标准化

最近,生成模型引起了很多关注。其中很大以部分都来自生成式对抗网络(GAN)。GAN是一个框架,由Goodfellow等人发明,其中互相竞争的网络,生成器G和鉴别...

5272
来自专栏大数据文摘

解决机器学习问题有通法!看这一篇就够了!

2024
来自专栏企鹅号快讯

基于tensorflow的手写数字识别

一、前言 本文主要介绍了tensorflow手写数字识别相关的理论,包括卷积,池化,全连接,梯度下降法。 二、手写数字识别相关理论 2.1 手写数字识别运算方法...

2887
来自专栏大数据挖掘DT机器学习

银行风控案例:Logistics模型预测银行贷款违约

在面试中会经常碰到考察对数据挖掘算法的熟悉程度,面试官会出一道题或给出一些数据,让你结合实际谈谈你选择什么模型,该模型的大致原理是什么,使用条件有哪些,模型优缺...

56412

扫码关注云+社区

领取腾讯云代金券