实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN

使用漫画风格重现现实世界的场景对于画师来说是一项费时费力——很多时候却又不得不做的工作。AI 能不能帮助我们解决这个麻烦?近日,来自清华大学、卡迪夫大学的研究者们提出了 CartoonGAN,它可以用真实景物的照片作为源图片,生成任意风格的「漫画」,从新海诚到宫崎骏……只要拿来一组带有所需风格的示例漫画图片训练之后即可开始「转换」。该研究的论文已被 CVPR2018 大会接收。

CartoonGAN 的预训练模型,其中包括宫崎骏、细田守、今敏(动画电影《红辣椒》)和新海诚风格:http://cg.cs.tsinghua.edu.cn/people/~Yongjin/CartoonGAN-Models.rar

漫画是在日常生活中我们能够广泛接触到的一种艺术形式。除了艺术本身之外,它的适用范围从出版媒体到儿童教育。和其他艺术形式一样,很多著名的漫画形象都是基于现实世界的场景创作的。下图展示了真实世界火车站的场景,在动画电影《你的名字。》中也出现了相应的漫画形象。

然而,使用卡通风格手绘重现现实世界的场景是一个费时费力的工作,而且需要很多专业的绘画技能。为了获得高质量的画面,原画作者必须仔细绘制每个线条,并对目标场景的每种颜色区域进行涂色。目前看来,具有标准特征的现有艺术编辑软件和算法无法产生令人满意的漫画效果。因此,如果有专业技术能够自动将真实世界的照片转换为高品质的漫画风格画面,对于画师来说是非常有帮助的一件事:这可以为他们节省大量时间,让他们专注于更有意义和创造性的工作。风格迁移工具也可以为 Instagram 和 Photoshop 等图像编辑软件提供新功能。

图 1. 漫画风格的一个示例:(a)是真实世界的一个场景,其漫画形象出现在动画电影《你的名字。》中。(b)是 CartoonGAN 将照片转换为漫画风格的结果。请注意:模型训练数据中并不包含任何《你的名字。》电影中的图片。

以艺术方式对图片进行处理的研究一直是计算机视觉的热门方向。此前的传统方式通常针对特定样式开发特定的算法。然而,这意味着需要做出大量技术上的努力才能做出模仿个人艺术家的细致风格。最近,基于机器学习的风格迁移方法,因为其可以通过示例图片对图像进行风格化,已经引起了很多人的关注。特别是生成对抗网络(GAN),其引入了循环方式训练进一步探索并提高了风格迁移的质量,GAN 的独特之处在于可以使用不成对照片和风格化图像进行训练。

尽管基于学习的风格迁移已经获得了很大成功,但最先进的方法仍无法生产具有可接受质量的漫画风格图像。究其原因,首先,漫画风不是添加纹理和边界线,而是需要从现实世界图像的复杂构造中高度简化;其次,尽管艺术家之间风格各异,但卡通图像具有一些明显共通之处:边缘清晰、颜色遮罩平滑、质地相对简单——这与其他形式的艺术作品截然不同。

在论文中,清华大学的研究人员提出了 CartoonGAN,一个基于 GAN 的全新照片漫画化方法。该方法需要一组照片和一组漫画图像进行训练。为了让训练数据易于获得,同时获得高质量的结果,我们不需要让两组图像互相配对或对应。从计算机视觉算法的角度来看,漫画风格化的目标是将照片流型映射到漫画流型中,同时确保其中的内容不变。为了实现这个目标,研究人员提出了专用的 GAN 架构,以及两个简单有效的损失函数。

研究人员称,CartoonGAN 的主要贡献在于:

  1. 提出了一个专用的基于 GAN 的方法,可以有效地学习使用不成对的图片集进行训练,对现实世界照片和漫画图像建立映射。新方法可以生成高质量的风格化漫画,这大大超越了现有最佳技术的能力——当来自特定艺术家的漫画图像被用于训练时,新方法可以忠实重现他们的风格。
  2. 在基于 GAN 的体系结构中提出两种简单而有效的损失函数。在生成网络中,为了应对照片和漫画之间的实质风格差异,研究人员在 VGG 网络的高级特征映射中引入了定义为ℓ1 的稀疏正则化语义损失。在鉴别器网络中,作者提出了推进边缘的对抗损失,以保证清晰的边缘。
  3. 作者进一步引入了一个初始化阶段来改善网络到目标流形的收敛。新的方法比现有的训练方法效率要高很多。

在 CartoonGAN 中,生成器网络 G 用于将输入图像映射到漫画流型中。在模型经过训练后,漫画风格化任务就可以执行了。G 从平卷积阶段开始,随后是两个下卷积区块,以对图像进行空间压缩和编码。在这个阶段提取有用的本地信号用于下游转换。随后使用相同布局的八个残差区块来构建内容和流形特征。研究人员采用了《Perceptual losses for real-time style transfer and super-resolution》中提出的残差块布局。最后,通过两个上卷积块重构输出的漫画风格图像,这两个卷积块包含步长为 1/2 的分步卷积层和一个 7×7 内核的最终卷积层。

为了与生成器网络形成互补,鉴别器网络 D 用于判断输入图像是否是「真实的」漫画图。由于判断图像是否为漫画是个要求不高的任务,因此我们使用 D 中参数较少的简单补丁级鉴别器,而不是常规全图鉴别器。与图像分类任务不同,漫画风格鉴别任务依赖于图像的局部特征。所以,鉴别器网络 D 被设计得较浅。在平层之后,网络采用两个步进卷积块来降低分辨率并编码用于分类的基本局部特征。随后,使用特征构造块和 3×3 卷积层来获得分类返回。在每个归一化层之后使用α = 0.2 的 Leaky ReLU。

图 2. CartoonGAN 架构中的生成器与分类器网络,其中 k 是内核大小,n 是特征映射的数量,s 是每个卷积层的跨步,'norm'表示归一化层,'ES '表示元素之和。

图 5. CartoonGAN 生成的不同艺术家漫画风格:(a)为输入照片。(b)为新海诚风格。(c)为宫崎骏风格。

图 6. 边缘生成的细节。(a)为 NST 使用训练集中所有图像训练后的风格转换结果;(b)为 CycleGAN 在同一性损失参数下的结果;(c)为 CartoonGAN 的结果。

图 7. CartoonGAN 与 NST 和 CycleGAN 在新海诚(上)和宫崎骏(下)风格转换上的比较。Gatys(image 1)和 Gatys(collection)是两个 NST 的变种,其分别将输入照片与内容密切近似的漫画图片进行训练,并输出结果。

论文:CartoonGAN: Generative Adversarial Networks for Photo Cartoonization

论文链接:http://203.187.160.133:9011/openaccess.thecvf.com/c3pr90ntc0td/content_cvpr_2018/papers/Chen_CartoonGAN_Generative_Adversarial_CVPR_2018_paper.pdf

摘要:在此论文中,我们提出了一种解决方案,能够将现实场景的图片转换为漫画风格的图像,这在计算机视觉和计算机绘图领域都是极具价值与挑战性的任务。我们的解决方案属于基于学习的方法,也就是近来以艺术形式做图像风格化的流行方式。然而,已有的方法不能产生令人满意的卡通化结果,主要是因为:1. 漫画风格有自己独特的特点,高度简化、抽象化。2. 漫画图像有明显的边缘、平滑的颜色和相对简单的纹理,这对当前基于纹理描述器损失函数的方法有极大的挑战。

在此论文中,我们提出了 CartoonGAN,也就是做漫画风格转换的生成式对抗网络。我们的方法采用未配对照片和漫画图来做训练,非常容易使用。我们也提出了两种适用于漫画化的两种全新损失函数:

1. 一个语义内容损失函数,其表述为 VGG 网络中高阶特征映射的稀疏正则化,以应对照片和漫画之间的风格差异。

2. 一个边缘提升对抗损失来保留清晰的边缘。我们进一步引入了初始化阶段,来改进网络的收敛达到目标流形。我们的方法也要比已有方法有更高效的训练。实验结果表明,该方法能够从真实图片转换为高质量的漫画图像(也就是遵循特定的风格,有明晰的边缘和平滑的描影,且超越了其他顶尖方法。

欢迎关注!留

原文发布于微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文发表时间:2018-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

深度学习也可以取悦女友

深度学习目前在图像处理领域有着非常好的应用和研究,在医学领域可以用它在极早期判断癌症;在安防领域,可以用它来快速检索目标任务,进行可疑或危险人物的检测与抓捕;在...

30760
来自专栏新智元

【重磅】无监督学习生成式对抗网络突破,OpenAI 5大项目落地

【新智元导读】“生成对抗网络是切片面包发明以来最令人激动的事情!”LeCun前不久在Quroa答问时毫不加掩饰对生成对抗网络的喜爱,他认为这是深度学习近期最值得...

46090
来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

38060
来自专栏计算机视觉战队

深度学习的时间序列模型评价

技术总言: 这次主要说最近发展的无监督特征学习和深入学习,其对于时间序列模型问题的评价。这些技术已经展现了希望对于建模静态数据,如计算机视觉,把它们应用到时间...

61180
来自专栏机器之心

观点 | 对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?

406130
来自专栏机器之心

神经风格迁移研究概述:从当前研究到未来方向(附论文和代码)

选自arXiv 作者:Yongcheng Jing 等 机器之心编译 风格迁移是近来人工智能领域内的一个热门研究主题,机器之心也报道了很多相关的研究。近日,来...

47950
来自专栏AI科技评论

论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

38340
来自专栏数据派THU

一文详解聚类和降维(附实例、代码)

来源:机器之心 作者:Vishal Maini 本文长度为3500字,建议阅读6分钟 本文对无监督学习的聚类和降维算法进行介绍,其中包括 K 均值聚类、层次聚类...

43380
来自专栏计算机视觉战队

CVPR 2018 论文简单笔记(部分,待更新)

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR 官网显示,今年大会有超过 ...

19420
来自专栏华章科技

实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN

CartoonGAN 的预训练模型,其中包括宫崎骏、细田守、今敏(动画电影《红辣椒》)和新海诚风格:

14420

扫码关注云+社区

领取腾讯云代金券