学界 | 纽约大学提出端到端优化图像压缩方法,全面超越JPEG 2000 | ICLR 2017

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评论也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

数据压缩是一种基础工程问题,在数据存储和有限容量信道传输中有重要的应用。图像作为一种信息载体,数据量巨大,因此研究者们对图像压缩的研究从未停止过。在ICLR 2017会议上,来自纽约大学的Johannes Balle 等研究者提出了一种端到端优化的图像压缩方法,并发表了论文:《End-to-End Optimized Image Compression》。这种方法包含了三个过程,分别是:非线性分析变换,均匀量化器,以及非线性合成变换。这些变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构建的。通过一组测试图像,该方法的表现通常比标准JPEG和JPEG 2000压缩方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有图像中,该方法都实现了显著的视觉上质量的提升,这点也被客观的质量评测方法MS-SSIM证明。

该论文将会在2017年4月24号在ICLR会议上作为第一个Contributed talk讨论。以下为AI科技评论据论文内容进行的部分编译。

论文摘要

数据压缩是一种被充分研究的基础工程问题,通常是为具有最小熵的给定离散数据集设计编码。解决方案很大程度上依赖于数据概率结构的知识,因此问题与概率源建模密切相关。然而,由于所有的实际编码一定具有有限的熵,连续值的数据(例如图像像素强度的向量)必须被量化为离散的值,这就会导致误差。在有损压缩问题下,必须权衡两种损失:离散化表示的熵(rate,压缩率)和量化导致的误差(distortion,失真)。不同的压缩应用场景,比如数据存储或者有限容量信道传输,需要不同的压缩率与失真的权衡。

同时优化压缩率和失真是困难的。在没有额外的约束的情况下,在高维空间进行最优量化是很棘手的。由于这个原因,目前大多数的图像压缩方法将数据向量线性的变换成适当的连续值表示,独立量化各个元素,然后使用无损熵编码对所得到的离散表示进行编码。,由于变换起到的至关重要的作用,这种方法被称为变换编码(transform coding)例如JPEG在分块像素上使用了离散余弦变换,JPEG 2000使用了多种尺度的正交小波分解。

研究人员基于非线性变换开发了一种端到端优化图片压缩的架构(如下图所示)。这是一种通用的非线性变换编码架构。一个图像向量x,通过一个参数化的分析变换y=ga(x;Φ),映射到编码空间(code space)中。这个表示被量化,产生一个离散值的向量q,接下来q被压缩。而重建压缩图像则与之相反。对于其中的分析变换,研究人员使用了基于级联的线性卷积层和非线性层的更灵活的变换,来优化均方误差(mean squared error,MSE)。值得注意的是,研究者使用了generalized divisive normalization(GND)联合非线性层,这对高斯图像密度是很有效的,这是由生物视觉系统神经元所启发的。

论文结果展示:

论文中,研究人员将他们的方法与两个标准方法JPEG和JPEG 2000进行对比。得到结果如下:

下面是上图图像亮度分量的rate-distortion曲线,左侧是感知质量,由多尺度结构相似性度量(MS-SSIM)。右侧是峰值信噪比。

下图为三种比特率下的图像压缩。从上到下分别是JPEG,论文中的方法,JPEG 2000,从左到右,比特率一步步增大。

论文中的方法相较于未压缩的原图细节较少,细节纹理和图案大部分被消除了,但是保留了轮廓的平滑性以及边缘的锐度,使得图像拥有自然的感观。相比之下,JPEG和JPEG 2000有明显的人工痕迹,这也是所有线性变换编码方法的问题:由于局部特征(边缘,轮廓,纹理元素等)是由局部线性基函数的组合表示的,变换系数的独立标量量化导致这些组合不平衡,导致在视觉上反映出潜在的基函数,即图像混叠和振铃现象。

值得注意的是,该论文中的方法在所有测试图像和所有比特率上,都有可察觉的优势。上图中显示了从高到低比特率的过程。随着比特率的降低,JPEG和JPEG 2000通过粗化线性基函数系数的精度来降低其对原始图像的近似,因此暴露出这些基函数的视觉上的外观。另一方面,论文中的方法逐渐简化了轮廓和其他图像特征,有效隐藏了表示底层的量化。

ICLR评论

ICLR委员会最终决定

评价:这是我们接受的论文中最好的两篇之一,我推荐它作为oral presentation。审稿人对这个主题相当的谨慎,并进行了深入的了解。

决定:接受(Oral)

非常好的论文

打分:9 分:在全部入选论文中排名Top 15%,强烈推荐

评论:这是我目前为止读过的使用深度神经网络进行图像压缩的最有说服力的论文。这篇文章写得非常好,客观评估中的rate-distortion理论非常好的契合了这个架构。该文章将结果于一个合理的基准进行对比(JPEG 2000,先前的文章仅仅与JPEG进行对比)。我希望这篇文章能够有更深远的影响。

希望能加入该方法在Lena/Barbare/Baboon图像上的结果,并且与更多的效果最好的经典方法进行对比。能够清晰地表现出神经网络方法与先前最好地方法之间的不同是至关重要的。从目前提交版本的论文看来,我仍然不知道这两个范畴的方法哪个更好。

有极好的性能,但是缺乏细节

打分:8分:在全部入选论文中排名Top 50%,确定接收

评论:本文将rate-distortion优化的方法拓展到深度编码器和解码器,并从简单的熵编码方法拓展到自适应熵编码。此外,本文还讨论了该方法和变分自动编码器之间的关系。

由于rete-distortion优化的方法已经被出版过,这次递交的文章的新颖性并不是非常高。在某些方面上,这篇文章甚至有退步,由于早期的工作是对perceptual metric进行优化,而这里使用的是MSE。然而,结果很明显的优于JPEG 2000,我并不知道目前有哪种其他的学习编码器能够达到这种层次的性能。这篇文章写得非常好。

官方评论

打分:8分:在全部入选论文中排名Top 50%,确定接收

评论:这是一篇很好的文章,它展示了一种端到端训练的图像压缩和解压系统,相比于目前的图像压缩算法(例如JPEG-2000)实现了更好的压缩比和质量之间的权衡。除了展示了深度学习在新应用下的效率,该论文的一个关键性贡献是一种差分形式的“rate”函数,作者展示了它可以被用来有效的训练不同的rate-distortion权衡。我希望这种方法不仅仅应用在图像压缩方面发挥影响,一些其他的差分近似方法可能都会从中受益。

一个很好的文章,使用了有趣的前提,一些新颖的方法,得到了很好的结果

打分:8分:在全部入选论文中排名Top 50%,明确接受

评论:这个写得很好的文章提供了一种端到端学习的方法进行图像压缩。通过优化rate-distortion性能,该方法能够通过自然图像数据集上的优化实现高效的图像压缩。

由于方法很有趣,结果吸引人,分析很透彻,因此我推荐接受这篇论文。

想要深入了解该论文中的方法的,请参考原论文:End-to-end Optimized Image Compression

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | 深度学习调参入门,有哪些技巧?

AI科技评论按:作者杨军,从事大规模机器学习系统研发及应用相关工作。本文整理自知乎,已获作者授权。 本文将分享一些自己关于深度学习模型调试技巧的总结思考(以CN...

3407
来自专栏SIGAI学习与实践平台

化秋毫为波澜:运动放大算法(深度学习版)

运动放大(Motion Magnification),将视频中对应位置的运动进行放大,简单理解的话,就是找到时间段内的运动矢量,进行放大,然后权值叠加回去。

992
来自专栏AI科技评论

ECAI 2016论文精选 | 更快,更精确的人脸识别方法

导读:ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果。 人脸识别的随机典型相关判别...

2768
来自专栏CreateAMind

深度学习调参有哪些技巧?

最近因为一些需要,参与了一些CNN建模调参的工作,出于个人习性,我并不习惯于通过单纯的trial-and-error的方式来调试经常给人以”black-box...

1254
来自专栏专知

【干货】2017最火的五篇深度学习论文 总有一篇适合你

【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中...

28411
来自专栏WindCoder

探索监督式机器学习算法

这周送来一篇python实现的机器学习的相关文章。一起学习吧。能力有限,一切以英文原文为准。里面部分公式改好好久,总是有一些变不过来,这些暂时看英文里面的吧。

491
来自专栏专知

机器学习的Pytorch实现资源集合

【导读】该项目用pytorch实现了从最基本的机器学习算法:回归、聚类,到深度学习、强化学习等。该项目的目的不是生成尽可能优化和计算效率的算法,而是以透明和可访...

1231
来自专栏机器之心

从大间隔分类器到核函数:全面理解支持向量机

26010
来自专栏人工智能

挑战深度学习与自然语言处理的极限!

最后一课,总结了目前这两个领域中的难题,介绍了一些前沿研究:快16倍的QRNN、自动设计神经网络的NAS等。 深度学习已经漂亮地完成了许多单项任务,但如果我们继...

1786
来自专栏崔庆才的专栏

干货 | 给妹纸的深度学习教学——从这里出发

或许你第一个想弄明白的问题是人工智能(AI),机器学习(ML),深度学习(DL)三者的区别和联系,下图清晰明了地告诉你。 ? 1. 什么是机器学习 从小学开始...

42811

扫码关注云+社区