专栏首页机器之心实习期完成,无图像对和域标签,博士小哥实现完全无监督的图像转换

实习期完成,无图像对和域标签,博士小哥实现完全无监督的图像转换

选自arXiv

作者:Kyungjune Baek等

参与:小舟、杜伟

图像到图像转换是一项非常重要的研究课题,也出现了很多图像转换方法,但是相关图像到图像转换模型都脱离不了监督训练。因而,越来越多的研究人员开始探索无监督设置下的图像到图像转换方法。2019 年 5 月,英伟达的一项研究探索 few-shot 无监督的图像到图像转换算法,并实现了逼真的转换效果。近日,韩国延世大学等机构的研究者实现了完全无监督设置下的图像到图像转换。

我们都知道,最近出现的各种图像到图像转换模型都至少使用图像级(即输入 - 输出对)或集合级(即域标签)监督中的一种。但实际上,即使是集合级的监督也可能成为数据收集过程中严重的瓶颈。

因此,在本篇论文中,来自韩国延世大学、Naver 株式会社 Clova AI Research 和瑞士洛桑联邦理工学院的研究者在完全无监督设置下完成图像到图像的转换,即既没有图像对也没有域标签。值得关注的是,本文是一作 Kyungjune Baek 在 Clova AI Research 实习期间完成的。

  • 论文链接:https://arxiv.org/pdf/2006.06500.pdf
  • 代码地址:https://github.com/clovaai/tunit

那么研究者是如何实现无监督的图像到图像转换呢?

他们提出了一种真正的无监督图像到图像转换方法(truly unsupervised image-to-image translation method, TUNIT),在该方法中,通过信息论(information-theoretic)方法学习分离图像域以及使用预估域标签生成相应的图像,二者同时进行。

在各种数据集上的实验结果表明,该方法能够成功分离域,并且在这些域之间实现图像转换。此外,在提供域标签子集的半监督设置下,该模型的性能优于现有的集合级监督方法

论文详解请戳:

如何实现的

首先,研究者阐明,本文中的无监督图像到图像转换属于无任何监督的任务,也就是没有图像级和集合级监督。其中有来自 K 个域(K≥2)的图像 X,没有标签 y,K 是数据集的一个未知属性。

图 2:三种监督级别,以往的图像到图像转换方法通常依赖 (a) 图像级和 (b) 集合级监督,而本研究提出的方法在执行图像到图像转换任务时使用的是 (c) 无任何监督的数据集。

接着,研究者提出了一个名为引导网络(guiding network)的模型,它集成了域分类器和风格编码器。通过将风格代码馈入到生成器以及将伪域标签馈入到鉴别器,该模型指导转换过程。

最后,通过使用来自鉴别器的反馈,生成器合成目标域(例如品种)的图像,同时尊重参考图像的风格(例如毛发图案),保持源图像的内容(例如姿势),具体架构如下图 3 所示。

图 3:该研究所提方法的概览。

学习生成域标签,编码风格特征

在该研究的框架中,引导网络 E 同时发挥着无监督域分类器和风格编码器的作用。引导网络 E 由 Eclass 和 Estyle 两部分组成,它们分别学习提供域标签和风格代码。

带有域指导的图像到图像转换

对于成功的图像转换,转换模型应该提供包含目标域视觉特征的逼真图像。为此,研究者采用了 3 种损失:1)生成逼真图像的对抗损失;2)鼓励模型不要忽略风格代码的风格对比损失;3)保留域不变(domain-invariant)特征的图像重建损失。

最后共同训练鉴别器、生成器和引导网络,具体公式如下所示:

效果怎么样

所提策略的效果

对于这种可以同时执行表示学习和训练转换网络的训练策略,研究者进行了深入探究。尽管可以轻松想到分别训练引导网络和生成对抗网络(GAN),但研究者证实了这会大大降低整体性能。

为了分析不同训练策略的效果,研究者在训练迭代的过程中绘制了逐级 FID,并提供了 tSNE 可视化图,如下图 4 所示:

图 4:单独训练与联合训练的比较。

从 FID 的比较来看,相较于联合训练策略,单独训练策略得到的平均 FID 分值要高得多,标准差也更高。这清楚地表明,联合训练在图像质量和性能稳定两方面更加高效。

不带任何标签的图像到图像转换

为了证实该方法能够处理无监督情况下的图像到图像的转换,研究者分别在 AFHQ、FFHQgaimoxi 和 LSUN Car 数据集上对模型进行了评估。

图 6:在 AFHQ wild 上训练引导网络时,它的风格空间的 t-SNE 可视化图。

图 7:无监督情况下,在 AFHQ 上的图像到图像转换结果。

图 8:无监督情况下,在 FFHQ 和 LSUN Car 上的图像到图像转换结果。

带有少量标签的图像到图像转换

研究者将该模型与在半监督学习设置下两个方案训练的 SOTA 模型做了比较,他们将数据集 D 划分为标注集 Dsup 和未标注集 Dun,变化比率 γ = |Dsup|/|D|。

第一个方案是只用 D_sup 训练模型;第二个方案是为了解决训练转换模型时可用样本数量不公平的问题。

Naïve 方案

下图 10(a)和(b)展示了在 Summer2winter 和 AnimalFaces-10 上使用逐级 FID 的定量结果。

图 10:naïve 方案中,不同比例的标注图像的 FID 曲线变化图。

下图 9 展示了该研究的结果与使用 naïve 方案训练的基线方法的定性结果比较。

图 9:不同比例的标注图像的定性结果比较。

替代方案

用 naïve 方案训练的基线方法不能完全利用训练样本,因为它根本不考虑 D_un。因此,为了更好地利用全部训练样本,研究者使用 D_sup 从头开始训练辅助分类器,以生成 D_un 的伪标签。

图 11:替代方案下 Summer2winter 上的 FID 曲线变化图。

下图 12 展示了 AnimalFaces-10 上的分类准确度和 FID 分数。

图 12:(a)替代方案下 AnimalFaces-10 上的 FID 曲线变化图;(b)AnimalFaces-10 上的分类准确度曲线。

辅助分类器的准确性随着训练样本(带标签)的数量的增加而提高。更高的分类精度自然可以提高转换质量。尽管 FUNIT 的 8% 的情况和 1% 的情况下的分类精度相似(约为 86%),但转换性能显示出了明显的差距(FUNIT 是 59.6,该研究的模型是 47.9)。这意味着准确性不是唯一的评判转换性能的因素。基于广泛的比较与评估,研究者表明提出的模型对半监督方案是有效的,并且相比于基线有显著的改善。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 去噪、去水印、超分辨率,这款不用学习的神经网络无所不能

    事情是这样的:研究人员们让一个深度卷积网络去学习复制被破坏的图像(例如加入噪点的图像),随后竟发现这个网络可以自行先学会如何重建图像。该研究的论文《Deep I...

    机器之心
  • 高糊图片可以做什么?Goodfellow等人用它生成一组合理图像

    作者:David Berthelot、Peyman Milanfar、Ian Goodfellow

    机器之心
  • 资源 | 图像配对数据集TTL:展现人类和机器判断图像相似性的差异

    选自arXiv 作者:Amir Rosenfeld等 机器之心编译 参与:刘晓坤、李泽南 人类对图像相似性的知觉判断依赖于丰富的内部表征,现有的计算机视觉技术应...

    机器之心
  • Nvidia最新AI技术可制作以假乱真的视频

    Nvidia人工智能研究人员开发出了一种无人监督的计算机学习方法,允许其对源视频进行彻底的改变,从而出产惊人的内容,如能够制作出如假包换的天气、昼夜效果,甚至改...

    人工智能快报
  • ECCV2020 Spotlight | 图像定位上的细粒化区域相似性自监督

    本文介绍一篇我们发表于ECCV 2020的论文《Self-supervising Fine-grained Region Similarities for La...

    AI科技评论
  • 对抗样本的反思:仅仅设置更小的扰动阈值 ε,或许并不够

    对抗样本是各种机器学习系统需要克服的一大障碍。它们的存在表明模型倾向于依赖不可靠的特征来最大限度的提高性能,如果受到干扰,可能会导致错误分类,带来潜在的灾难性后...

    AI科技评论
  • 震撼!英伟达用深度学习做图像修复,毫无ps痕迹

    新智元
  • 使用深度学习来实现超分辨率的介绍

    超分辨率是从给定的低分辨率(LR)图像中恢复高分辨率(HR)图像的过程。由于较小的空间分辨率(即大小)或退化的结果(如模糊),图像可能具有“较低的分辨率”。我们...

    小白学视觉
  • 利用多尺度块合成进行图像修复

    深度学习的最新进展已经令人兴奋,在自然图像中填充大量的空洞,具有语义上的合理性和上下文感知的细节,影响基础图像处理任务,例如目标消除。虽然这些基于深度学习的方...

    计算机视觉研究院
  • Ukiyo-e faces dataset 浮世绘面孔数据集

    原文链接 / https://www.justinpinkney.com/ukiyoe-dataset/

    LiveVideoStack

扫码关注云+社区

领取腾讯云代金券