CVPR 2018 论文解读(部分)

CVPR 2018还有3个月就开始了,目前已经公布了所有收录论文名单,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVPR 2018论文解读的整理,后续还会持续更新。

1、CVPR2018|DiracNets:无需跳层连接,训练更深神经网络,结构参数化与Dirac参数化的ResNet

论文讲述了虚拟化技术牺牲硬件开销和性能,换来软件功能的灵活性;深度模型也类似,如果把网络结构参数化,得到的模型更灵活易控,但是计算效率并不高。

2、CVPR 2018 | 残差密集网络:利用所有分层特征的图像超分辨率网络

美国东北大学最近在图像超分辨领域提出了一种残差密集网络,来从原图生成高分辨率图像。该网络结合残差网络与密集连接网络的特性充分利用原始 LR 图像的所有分层特征,因而能重构出高质量的图像。

3、CVPR2018|DA-GAN技术:计算机帮你创造奇妙“新物种”

微软亚研院被CVPR2018接收的论文提出的DA-GAN技术,能够通过文字描述生成新形象,形成了全新的艺术创造模式。

4、CVPR 2018 论文概述:有损压缩视频的多帧质量增强方法

CVPR 2018论文《Multi Frame Quality Enhancement for Compressed Video》提出针对有损压缩视频的多帧质量增强方法,显著提升了视频质量增强的性能。

5、CVPR 2018 | 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊

现有的最优方法在文本、人脸以及低光照图像上的盲图像去模糊效果并不佳,主要受限于图像先验的手工设计属性。本文研究者将图像先验表示为二值分类器,训练 CNN 来分类模糊和清晰图像。实验表明,该图像先验比目前最先进的人工设计先验更具区分性,可实现更广泛场景的盲图像去模糊。

6、CVPR2018:基于时空模型无监督迁移学习的行人重识别

本文为你解读CVPR2018 TFusion,解决的目标是跨数据集的Person Rei,属于无监督学习,方法是多模态数据融合 + 迁移学习。实验效果上,超越了所有无监督Person reid方法,逼近有监督方法,在部分数据集上甚至超越有监督方法。

7、独立循环神经网络(IndRNN):打造更长更深的RNN

电子科技大学和澳大利亚伍伦贡大学的研究者合作发表论文,介绍了他们创造的独立循环神经网络(IndRNN),这种新型RNN能有效解决网络收敛时的梯度爆炸和消失问题,并能够处理更长的序列。

8、CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征

来自腾讯 AI Lab、MIT、清华、斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络:TVNet

9、CVPR 2018 | Spotlight论文:变分U-Net,可按条件独立变换目标的外观和形状

来自德国海德堡大学的研究者提出了条件 U-Net,将变分自编码器输出的外观条件化。实验证明,这个模型能够完成条件图像生成和转换。在多个数据集上进行的定性和定量实验表明,该方法比目前最先进的方法都有所提升。

  • 以下论文解读来源于paperweekly

10、Unsupervised Person Image Synthesis in Arbitrary Poses

CVPR 2018 Spotlight 论文,ReID + GAN 换 pose。本文用了较多的篇幅讲 loss function,pose 的提取用的是 OpenPose 这个库。 其 loss 分为三部分: Image Adversarial Loss、 Pose Loss、Identity Loss。

论文链接

https://iri,upc.edu/people/aagudo/Papers/CVPR2018/apumarola_etal_cvpr18_2.pdf

11、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018 RE-ID Spotlight 一篇,这篇文章主要 contribution 有以下两点:

提出了一个新的更大的数据集,更为细致:考虑到了视角,光照等更为细致的因素,具体参数可以直接看文章;多个数据集间的差异,即 domain-gap,通过 GAN 来生成和模仿。

论文链接

https://arxiv.org/pdf/1711.08565.pdf

代码链接

https://github.com/JoinWei-PKU/PTGAN

数据集链接

http://www.pkuvmc.com/publications/msmt17.html

12、Disentangled Person Image Generation

在 NIPS 2017 上,该团队已经为我们贡献了 Pose Guided Person Image Generation 这篇非常棒的文章,在 CVPR 2018 中,他们推出的更新的这篇文章不仅仅解决了换 pose 问题,还实现了”随心所欲“的换装换 pose,入选今年的 Spotlight。

论文链接

https://arxiv.org/pdf/1712.02621.pdf

13、Practical Block-wise Neural Network Architecture Generation

CVPR 2018 Oral 一篇,本文主要提出了通过封装模块(block-wise)的方法,运用增强学习设计生成网络架构的方法。

论文链接

https://arxiv.org/pdf/1708.05552.pdf

14、Deep Layer Aggregation

CVPR 2018 Oral,topic:网络设计模块化。如名所示,提出了 aggregation 的具体思路,并在层融合上提出了具体方式。

论文链接

https://arxiv.org/pdf/1707.06484.pdf

15、Learning Face Age Progression: A Pyramid Architecture of GANs

CVPR 2018 Oral,文中提出了特征提取器用于提出特定特征,原因是作者认为相同年龄段的不同人脸有着相同的的纹理等特定信息,而这个提取器就是提取出这些特征。此外,该分类器是经过 age 分类任务预训练好了的。

论文链接

https://arxiv.org/pdf/1711.10352v1

16、Convolutional Neural Networks with Alternately Updated Clique

北大团队提出的新的 block 设计,achieves the performance of the state of the art with less parameters.。由于 block 内任意两层互连,故实现了 top-bottom refinement,也就实现了 attention 机制。文中还提到了部分 technique。

论文链接

https://arxiv.org/abs.1802.10419

代码链接

https://github.com/iboing/CliqueNet

17、Unsupervised Discovery of Object Landmarks as Structural Representations

CVPR 2018 Oral, 今年 CVPR Landmark 和 Attention 这两个词出现的频率很高。现在看到的是第二版,对该文进行了更深入的研究后完成。

论文链接

https://arxiv.org/pdf/1804.04412.pdf

18、An Analysis of Scale Invariance in Object Detection - SNIP

CVPR 2018 Oral,文章主要解决网络处理不同 scale 图片的网络策略。

论文链接

https://arxiv.org/pdf/1711.08189.pdf

19、Wasserstein Introspective Neural Networks

文章主要做的事情就是提出了基于 Wasserstein 的 INN,该组已经在 ICCV,NIPS 等多次提出并改进该模型,该模型主要做的就是将 GAN 中的 G 和 D 结合起来。

论文链接

https://arxiv.org/pdf/1711.08875

代码链接

https://github.com/kjunelee/WINN

20、Im2Flow: Motion Hallucination from Static Images for Action Recognition

CVPR 2018 Oral,用 u-net 训练一个模型:输入是一个静态的帧,输出的预测的五帧光流信息,模型在 YouTube 数据集上训练。

论文链接

https://arxiv.org/pdf/1712.04109.pdf

21、What have we learned from deep representations for action recognition?

CVPR 2018 Zisserman 的新论文,这篇文章就是 two-stream 模型中间层的可视化方法,换句话说,就是探寻 two-stream 模型学到了怎样的时空信息。

论文链接

https://arxiv.org/pdf/1801.01415.pdf

22、Squeeze-and-Excitation Networks

考虑通道加权,用全局池化后训练的全连层作为权重,相当于在 channels 上加了一个 attention 机制,给不同的 channel 不同的权重。

论文链接

https://arxiv.org/pdf/1709.01507.pdf

代码链接

https://github.com/hujie-frank/SENet

23、Actor and Action Video Segmentation from a Sentence

CVPR 2018 Oral,本文定义了一个新的任务:给出一个句子,根据该句子分割视频中的 actor 及其 action。

论文链接

https://arxiv.org/pdf/1803.07485.pdf

24、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Oral,主题是 attention+VQA,本文的主要思路是用 faster-rcnn 提取出 proposal,然后用其做 image captioning 或者 VQA,该方法取得了 2017 VQA Challenge 的第一名。

论文链接

https://arxiv.org/pdf/1707.07998

代码链接

https://github.com/peteanderson80/bottom-up-attention

25、Embodied Question Answering

这篇文章主要定义了一个新的 task 并给出了一个数据集。将一个 agent 随机丢进一个房间,向他提出一个问题,这个 agent 需要自己导航并回答问题。

论文链接

https://arxiv.org/pdf/1711.11543

26、Taskonomy: Disentangling Task Transfer Learning

本文定义了一个新的任务,针对在视觉内的迁移学习,并提出了一个蛮大的数据库, 定义的任务是这样的:vision task 类目很多,只针对某个问题来解决的话,会需要很大的标注的数据集,但我们不难想到的是,一个视觉任务的解决应该能够一定程度的解决另一个视觉任务,毕竟一个成熟模型的构建意味着对该 image 的一定的理解,而这部分的理解的一部分或许对另一个 task 有助益,例,物体 relation 的理解对深度信息的学习毫无疑问是有着助益的。

论文链接

https://arxiv.org/pdf/1804.08328.pdf

代码链接

https://github.com/StanfordVL/taskonomy

27、Detail-Preserving Pooling in Deep Networks

CVPR 2018 Oral,顾名思义,提出了保留 detail 的池化方法。 max/avg pooling 一个只选取最大而忽略与周围像素的关联性,一个重视关联性却又直接抹平,并且在实际梯度计算中也有一些 drawback,所以该文提出了这个新方法,一句话概括,就是在池化过程中学了一个动态的 weight。

论文链接

https://arxiv.org/pdf/1804.04076.pdf

代码链接

https://github.com/visinf/dpp

28、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

CVPR 2018 Oral,本文解决了 GAN 生成高分辨率突破的问题,分辨率达到了 2048*1024,方法精细,值得深入来看。

论文链接

https://arxiv.org/pdf/1711,11585.pdf

代码链接

https://github.com/NVIDIA/pix2pixHD

29、Feature Space Transfer for Data Augmentation

CVPR 2018 ORAL,用GAN生成新数据。

论文链接

https://arxiv.org/pdf/1801.04356.pdf

30、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

这里的 domain 是指针对数据集中的 attribute,根据 attribute 来划分的,比如相对于发色而言,金发是一个 domain,黑发是一个 domain ,作者在本文提出了一个可以解决 multiple domain translation 的 translator。

论文链接

https://arxiv.org/pdf/1711.09020.pdf

代码链接

https://github.com/yunjey/StarGAN

31、Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 Oral,Zero-Shot Learning 就是寻求将学习到的特征映射到另一个空间中,从而 map 到 seen 及 unseen 的属性或者 label 上。这篇文章的主要亮点在于学习了已定义label的同时,学习了latent attribute(隐含属性)。

论文链接

https://arxiv.org/pdf/1803.06731.pdf

32、Relation Networks for Object Detection

CVPR 2018 Oral,本文设计了一个考虑 relation 的 module,来增强 object detection 的性能。

论文链接

https://arxiv.org/pdf/1711.11575.pdf

33、Semi-parametric Image Synthesis

CVPR 2018 Oral,来自 CUHK,这里设计的模型以 semantic layout 输入,输出真实的相片般的图片。

论文链接

https://vladlen.info/papers/SIMS.pdf

34、Synthesizing Images of Humans in Unseen Poses

CVPR 2018 Oral,Pose 合成。

论文链接

https://arxiv.org/pdf/1804.0773

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2018-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

【原创精品】使用R语言gbm包实现梯度提升算法

原创推文预告(绿色为已发布,点击标题即可阅读) ● 随机森林在因子选择上的应用基于Matlab ● 择时策略:在一天的何时进行交易 ● 主题模型 - LD...

51670
来自专栏CVer

[计算机视觉论文速递] 2018-03-09

通知:这篇推文有19篇论文速递信息,涉及图像分类、目标检测、目标分割、超分辨率SR、姿态估计、行人重识别Re-ID等方向 [1]《A Deep Learning...

381100
来自专栏AI研习社

AI 助你无码看片,生成对抗网络(GAN)大显身手

作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1) 去除(爱情)动作片中的马赛克 2) ...

2.8K30
来自专栏Coding迪斯尼

深度学习:透过神经网络的内在灵活与柏拉图的哲学理念

15330
来自专栏大数据挖掘DT机器学习

通俗的将Xgboost的原理讲明白

初看Xgboost,翻了多篇博客发现关于xgboost原理的描述实在难以忍受,缺乏逻辑性,写一篇供讨论。 观其大略,而后深入细节,一开始扎进公式反正我是觉得效...

1.3K60
来自专栏机器之心

斯坦福完全可解释深度神经网络:你需要用决策树搞点事

52660
来自专栏人人都是极客

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回顾...

50440
来自专栏机器学习和数学

[有意思的数学] 傅里叶变换和卷积与图像滤波的关系 (2)

昨天简单介绍了Fourier变换和卷积的概念,有了一个基本的认识之后,再看图像滤波,就不会觉得那么莫名其妙了。图像滤波这其实也是个大坑,里面涉及的东西很多,想通...

46860
来自专栏目标检测和深度学习

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回...

58680
来自专栏人工智能头条

Yoshua Bengio:在能量模型中使用提前推断近似反向传播

17520

扫码关注云+社区

领取腾讯云代金券