[计算机视觉论文速递] 2018-06-19 CVPR 2018专场

Amusi

发布于 2018-07-24 11:21:07

6660

发布于 2018-07-24 11:21:07

文章被收录于专栏：CVer

导言

这篇文章有4篇论文速递，都是CVPR 2018论文，包括zero-shot learning、图像合成和图像转换等方向。

编辑: Amusi

校稿: Amusi

前戏

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨，还请见谅。喜欢的童鞋，欢迎star、fork和pull。

直接点击“阅读全文”即可访问daily-paper-computer-vision。

link: https://github.com/amusi/daily-paper-computer-vision

Zero-Shot Learning

《Sketch-a-Classifier: Sketch-based Photo Classifier Generation》

CVPR 2018 Spotlight

Sketch a Classifier

Network architecture

Abstract：当代深度学习技术已经使图像识别成为合理可靠的技术。然而，训练有效的照片分类器通常需要大量的样本，这些样本限制了图像识别的可扩展性和适用于图像可能不可用的情况。这激发了zero-shot learning，通过从文本等其他形式的知识迁移来解决问题。在本文中，我们研究了一种合成图像分类器的替代方法：几乎直接从用户的想象中，通过自由手绘草图。This approach doesn't require the category to be nameable or describable via attributes as per zero-shot learning。我们通过训练{模型回归}网络来实现这一点，从{手绘草图}空间映射到照片分类器的空间。事实证明，这种映射可以以与类别无关的方式学习，允许用户合成用于新类别的照片分类器，而不需要注释的训练照片。 {我们还证明，这种分类器生成的方式也可以用来增强现有照片分类器的粒度（granularity ），或者作为name-based 的 zero-short learning的补充。

arXiv：https://arxiv.org/abs/1804.11182

Image Synthesis

《Conditional Image-to-Image Translation》

CVPR 2018 Poster

Conditional image-to-image translation

Architecture of the proposed conditional dual GAN (cd-GAN)

Abstract：生成对抗网络（GAN）和对偶学习（dual learning）已经广泛应用于图像到图像的转换任务。然而，现有模型缺乏控制目标域中的 translation结果的能力，并且它们的结果通常缺乏多样性（diversity），因为固定图像通常导致（几乎）确定translation 结果。在本文中，我们研究了一个新问题，即有条件的图像到图像转换（conditional image-to-image translation），即将图像从源域转换到目标域中给定图像上的目标域。它要求生成的图像应从目标域继承条件图像（conditional image）的某些特定于域的功能。因此，改变目标域中的条件图像将导致来自源域的固定输入图像的各种 translation结果，并且因此条件输入图像有助于控制 translation结果。我们用基于GAN和对偶学习的不成对（unpaired）数据解决了这个问题。我们将两个条件 translation 模型（一个从A域到B域，另一个从B域到A域）转换为输入组合和重构，同时保留域独立特征。我们对男性的脸部进行实验，从女性的脸部 translation 和边缘到鞋子和包的 translation。结果证明了我们提出的方法的有效性。

arXiv：https://arxiv.org/abs/1805.00251

《Semi-parametric Image Synthesis》

CVPR 2018 Oral

Comparison to the approach of Chen and Koltun [2] on coarse semantic layouts from the Cityscapes dataset. Zoom in for details

First stage of the image synthesis pipeline

The target semantic layout L and the canvas C are given to a network f, which synthesizes the output image

Abstract：我们提出了一种半参数（semi-parametric）方法从语义布局进行照片图像合成。该方法结合了参数和非参数（parametric and nonparametric）技术的互补优势。非参数组件是由一组训练图像构成的图像片段的 memory bank。在测试阶段，给定一个新的语义布局，the memory bank is used to retrieve photographic references that are provided as source material to a deep network。该合成是通过利用提供的照相材料（photographic material）的深层网络进行的。在多个语义分割数据集上进行的实验表明，所提出的方法比最近的纯参数化技术产生更为真实的图像。

arXiv：https://arxiv.org/abs/1804.10992

github：https://github.com/xjqicuhk/SIMS

video：https://www.youtube.com/watch?v=U4Q98lenGLQ&feature=youtu.be

《Learning to Sketch with Shortcut Cycle Consistency》

CVPR 2018 Poster

Photo-to-sketch synthesis on the QMUL-Shoe-Chair-V2 test splits. From left to right: input photo, Pix2pix [13] ,Pix2seq [2], CycleGAN [51], CycleGAN with supervised translation loss, ours and ground truth human sketch.

Abstract：看到的是素描（sketch） - 自由手写素描自然地建立人与机器视觉之间的联系。在本文中，我们提出了一种将对象照片翻译为素描的新颖方法，模仿人类素描绘制过程。这是一项非常具有挑战性的任务，因为照片和素描域的差异很大。此外，即使在参考照片中描绘相同的对象实例时，素描也展现出不同程度的复杂性和抽象性。这意味着即使有照片素描对，他们也只能提供弱的监督信号来学习翻译模型。与现有的解决D（E（照片）） - >草图问题的有监督方法相比，其中E（⋅）和D（⋅）分别表示编码器和解码器，我们利用反问题（例如D （素描）） - >照片），并结合无监督的域内重建学习任务，所有这些都在多任务学习框架内完成。与基于循环一致性的现有无监督方法（即D（E（D（E（photo）））） - > photo）相比，我们引入了在编码器瓶颈处强制执行的快捷方式一致性（例如D（E（photo）） - >照片）利用额外的自我监督。定性和定量结果都表明，所提出的模型优于一些最先进的替代方案。我们还表明，合成素描可用于训练更好的细粒度素描图像检索（FG-SBIR）模型，有效缓解素描数据稀缺的问题。

arXiv：https://arxiv.org/abs/1805.00247

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-06-23，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 CVer 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

[计算机视觉论文速递] 2018-06-19 CVPR 2018专场

[计算机视觉论文速递] 2018-06-19 CVPR 2018专场

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐