CVPR 2018 论文解读（部分）

计算机视觉研究院

发布于 2018-07-25 15:01:49

6180

发布于 2018-07-25 15:01:49

文章被收录于专栏：计算机视觉战队

CVPR 2018还有3个月就开始了，目前已经公布了所有收录论文名单，为了能够让大家更深刻了解CVPR的论文，我们进行了一些CVPR 2018论文解读的整理，后续还会持续更新。

1、CVPR2018|DiracNets：无需跳层连接，训练更深神经网络，结构参数化与Dirac参数化的ResNet

论文讲述了虚拟化技术牺牲硬件开销和性能，换来软件功能的灵活性；深度模型也类似，如果把网络结构参数化，得到的模型更灵活易控，但是计算效率并不高。

2、CVPR 2018 | 残差密集网络：利用所有分层特征的图像超分辨率网络

美国东北大学最近在图像超分辨领域提出了一种残差密集网络，来从原图生成高分辨率图像。该网络结合残差网络与密集连接网络的特性充分利用原始 LR 图像的所有分层特征，因而能重构出高质量的图像。

3、CVPR2018|DA-GAN技术：计算机帮你创造奇妙“新物种”

微软亚研院被CVPR2018接收的论文提出的DA-GAN技术，能够通过文字描述生成新形象，形成了全新的艺术创造模式。

4、CVPR 2018 论文概述：有损压缩视频的多帧质量增强方法

CVPR 2018论文《Multi Frame Quality Enhancement for Compressed Video》提出针对有损压缩视频的多帧质量增强方法，显著提升了视频质量增强的性能。

5、CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

现有的最优方法在文本、人脸以及低光照图像上的盲图像去模糊效果并不佳，主要受限于图像先验的手工设计属性。本文研究者将图像先验表示为二值分类器，训练 CNN 来分类模糊和清晰图像。实验表明，该图像先验比目前最先进的人工设计先验更具区分性，可实现更广泛场景的盲图像去模糊。

6、CVPR2018：基于时空模型无监督迁移学习的行人重识别

本文为你解读CVPR2018 TFusion，解决的目标是跨数据集的Person Rei，属于无监督学习，方法是多模态数据融合 + 迁移学习。实验效果上，超越了所有无监督Person reid方法，逼近有监督方法，在部分数据集上甚至超越有监督方法。

7、独立循环神经网络（IndRNN）：打造更长更深的RNN

电子科技大学和澳大利亚伍伦贡大学的研究者合作发表论文，介绍了他们创造的独立循环神经网络（IndRNN），这种新型RNN能有效解决网络收敛时的梯度爆炸和消失问题，并能够处理更长的序列。

8、CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet：可端到端学习视频的运动表征

来自腾讯 AI Lab、MIT、清华、斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络：TVNet

9、CVPR 2018 | Spotlight论文：变分U-Net，可按条件独立变换目标的外观和形状

来自德国海德堡大学的研究者提出了条件 U-Net，将变分自编码器输出的外观条件化。实验证明，这个模型能够完成条件图像生成和转换。在多个数据集上进行的定性和定量实验表明，该方法比目前最先进的方法都有所提升。

以下论文解读来源于paperweekly

10、Unsupervised Person Image Synthesis in Arbitrary Poses

CVPR 2018 Spotlight 论文，ReID + GAN 换 pose。本文用了较多的篇幅讲 loss function，pose 的提取用的是 OpenPose 这个库。其 loss 分为三部分： Image Adversarial Loss、 Pose Loss、Identity Loss。

论文链接

https://iri,upc.edu/people/aagudo/Papers/CVPR2018/apumarola_etal_cvpr18_2.pdf

11、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018 RE-ID Spotlight 一篇，这篇文章主要 contribution 有以下两点：

提出了一个新的更大的数据集，更为细致：考虑到了视角，光照等更为细致的因素，具体参数可以直接看文章；多个数据集间的差异，即 domain-gap，通过 GAN 来生成和模仿。

论文链接

https://arxiv.org/pdf/1711.08565.pdf

代码链接

https://github.com/JoinWei-PKU/PTGAN

数据集链接

http://www.pkuvmc.com/publications/msmt17.html

12、Disentangled Person Image Generation

在 NIPS 2017 上，该团队已经为我们贡献了 Pose Guided Person Image Generation 这篇非常棒的文章，在 CVPR 2018 中，他们推出的更新的这篇文章不仅仅解决了换 pose 问题，还实现了”随心所欲“的换装换 pose，入选今年的 Spotlight。

论文链接

https://arxiv.org/pdf/1712.02621.pdf

13、Practical Block-wise Neural Network Architecture Generation

CVPR 2018 Oral 一篇，本文主要提出了通过封装模块（block-wise）的方法，运用增强学习设计生成网络架构的方法。

论文链接

https://arxiv.org/pdf/1708.05552.pdf

14、Deep Layer Aggregation

CVPR 2018 Oral，topic：网络设计模块化。如名所示，提出了 aggregation 的具体思路，并在层融合上提出了具体方式。

论文链接

https://arxiv.org/pdf/1707.06484.pdf

15、Learning Face Age Progression: A Pyramid Architecture of GANs

CVPR 2018 Oral，文中提出了特征提取器用于提出特定特征，原因是作者认为相同年龄段的不同人脸有着相同的的纹理等特定信息，而这个提取器就是提取出这些特征。此外，该分类器是经过 age 分类任务预训练好了的。

论文链接

https://arxiv.org/pdf/1711.10352v1

16、Convolutional Neural Networks with Alternately Updated Clique

北大团队提出的新的 block 设计，achieves the performance of the state of the art with less parameters.。由于 block 内任意两层互连，故实现了 top-bottom refinement，也就实现了 attention 机制。文中还提到了部分 technique。

论文链接

https://arxiv.org/abs.1802.10419

代码链接

https://github.com/iboing/CliqueNet

17、Unsupervised Discovery of Object Landmarks as Structural Representations

CVPR 2018 Oral，今年 CVPR Landmark 和 Attention 这两个词出现的频率很高。现在看到的是第二版，对该文进行了更深入的研究后完成。

论文链接

https://arxiv.org/pdf/1804.04412.pdf

18、An Analysis of Scale Invariance in Object Detection - SNIP

CVPR 2018 Oral，文章主要解决网络处理不同 scale 图片的网络策略。

论文链接

https://arxiv.org/pdf/1711.08189.pdf

19、Wasserstein Introspective Neural Networks

文章主要做的事情就是提出了基于 Wasserstein 的 INN，该组已经在 ICCV，NIPS 等多次提出并改进该模型，该模型主要做的就是将 GAN 中的 G 和 D 结合起来。

论文链接

https://arxiv.org/pdf/1711.08875

代码链接

https://github.com/kjunelee/WINN

20、Im2Flow: Motion Hallucination from Static Images for Action Recognition

CVPR 2018 Oral,用 u-net 训练一个模型：输入是一个静态的帧，输出的预测的五帧光流信息，模型在 YouTube 数据集上训练。

论文链接

https://arxiv.org/pdf/1712.04109.pdf

21、What have we learned from deep representations for action recognition?

CVPR 2018 Zisserman 的新论文，这篇文章就是 two-stream 模型中间层的可视化方法，换句话说，就是探寻 two-stream 模型学到了怎样的时空信息。

论文链接

https://arxiv.org/pdf/1801.01415.pdf

22、Squeeze-and-Excitation Networks

考虑通道加权，用全局池化后训练的全连层作为权重，相当于在 channels 上加了一个 attention 机制，给不同的 channel 不同的权重。

论文链接

https://arxiv.org/pdf/1709.01507.pdf

代码链接

https://github.com/hujie-frank/SENet

23、Actor and Action Video Segmentation from a Sentence

CVPR 2018 Oral，本文定义了一个新的任务：给出一个句子，根据该句子分割视频中的 actor 及其 action。

论文链接

https://arxiv.org/pdf/1803.07485.pdf

24、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Oral，主题是 attention+VQA，本文的主要思路是用 faster-rcnn 提取出 proposal，然后用其做 image captioning 或者 VQA，该方法取得了 2017 VQA Challenge 的第一名。

论文链接

https://arxiv.org/pdf/1707.07998

代码链接

https://github.com/peteanderson80/bottom-up-attention

25、Embodied Question Answering

这篇文章主要定义了一个新的 task 并给出了一个数据集。将一个 agent 随机丢进一个房间，向他提出一个问题，这个 agent 需要自己导航并回答问题。

论文链接

https://arxiv.org/pdf/1711.11543

26、Taskonomy: Disentangling Task Transfer Learning

本文定义了一个新的任务，针对在视觉内的迁移学习，并提出了一个蛮大的数据库，定义的任务是这样的：vision task 类目很多，只针对某个问题来解决的话，会需要很大的标注的数据集，但我们不难想到的是，一个视觉任务的解决应该能够一定程度的解决另一个视觉任务，毕竟一个成熟模型的构建意味着对该 image 的一定的理解，而这部分的理解的一部分或许对另一个 task 有助益，例，物体 relation 的理解对深度信息的学习毫无疑问是有着助益的。

论文链接

https://arxiv.org/pdf/1804.08328.pdf

代码链接

https://github.com/StanfordVL/taskonomy

27、Detail-Preserving Pooling in Deep Networks

CVPR 2018 Oral，顾名思义，提出了保留 detail 的池化方法。 max/avg pooling 一个只选取最大而忽略与周围像素的关联性，一个重视关联性却又直接抹平，并且在实际梯度计算中也有一些 drawback，所以该文提出了这个新方法，一句话概括，就是在池化过程中学了一个动态的 weight。

论文链接

https://arxiv.org/pdf/1804.04076.pdf

代码链接

https://github.com/visinf/dpp

28、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

CVPR 2018 Oral，本文解决了 GAN 生成高分辨率突破的问题，分辨率达到了 2048*1024，方法精细，值得深入来看。

论文链接

https://arxiv.org/pdf/1711,11585.pdf

代码链接

https://github.com/NVIDIA/pix2pixHD

29、Feature Space Transfer for Data Augmentation

CVPR 2018 ORAL，用GAN生成新数据。

论文链接

https://arxiv.org/pdf/1801.04356.pdf

30、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

这里的 domain 是指针对数据集中的 attribute，根据 attribute 来划分的，比如相对于发色而言，金发是一个 domain，黑发是一个 domain ，作者在本文提出了一个可以解决 multiple domain translation 的 translator。

论文链接

https://arxiv.org/pdf/1711.09020.pdf

代码链接

https://github.com/yunjey/StarGAN

31、Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 Oral，Zero-Shot Learning 就是寻求将学习到的特征映射到另一个空间中，从而 map 到 seen 及 unseen 的属性或者 label 上。这篇文章的主要亮点在于学习了已定义label的同时，学习了latent attribute（隐含属性）。

论文链接

https://arxiv.org/pdf/1803.06731.pdf

32、Relation Networks for Object Detection

CVPR 2018 Oral，本文设计了一个考虑 relation 的 module，来增强 object detection 的性能。

论文链接

https://arxiv.org/pdf/1711.11575.pdf

33、Semi-parametric Image Synthesis

CVPR 2018 Oral，来自 CUHK，这里设计的模型以 semantic layout 输入，输出真实的相片般的图片。

论文链接

https://vladlen.info/papers/SIMS.pdf

34、Synthesizing Images of Humans in Unseen Poses

CVPR 2018 Oral，Pose 合成。

论文链接

https://arxiv.org/pdf/1804.0773

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-05-08，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自计算机视觉战队微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

登录后参与评论

0 条评论

热度

CVPR 2018 论文解读（部分）

CVPR 2018 论文解读（部分）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐