专栏首页机器之心深度 | BAIR提出MC-GAN,使用GAN实现字体风格迁移

深度 | BAIR提出MC-GAN,使用GAN实现字体风格迁移

选自BAIR

作者:Samaneh Azadi

机器之心编译

参与:Nurhachu Null、路

近日,BAIR 发布博客提出 MC-GAN(Multi-Content GAN),可以快速生成相同风格的字体。

左图:已有的一张电影海报;右图:使用 MC-GAN 生成的新电影名称。

文本是二维设计中的一个显著视觉元素。艺术家投入了大量时间设计在视觉上与其他元素的形状和纹理相兼容的字形。这个过程需要大量劳动,艺术家们通常只设计标题或注释所必需的字形子集,这使得设计完成后文本很难更改,或者很难把看到的字体实例迁移到自己的项目中。

早期字形合成研究集中在轮廓的几何建模上,局限于特定的字形拓扑上(例如,不能应用到装饰字体或者手写体),并且不能与图像输入一起使用。随着深度神经网络的兴起,研究者研究了从图像进行字形建模的问题。另一方面,合成与局部观察相一致的数据在计算机视觉和图形学中是一个有趣的问题,例如,多视角图像生成、补全图像中的缺失区域,以及三维形状的生成。字体数据是一个典型的例子,它提供了文字样式和内容的清晰分解。

条件生成对抗网络(cGANS)[1] 的最新进展在许多生成应用中取得了成功。然而,它们只有在相当特定的领域中才能发挥最佳效果,无法适应通用领域或多领域迁移。类似地,当被直接用来生成字体时,cGAN 模型会生成严重的失真。例如,给定下面五个字母:

条件生成对抗网络模型无法以同一种风格生成 26 个字母:

用于 Few Shot 字体风格迁移的多内容生成对抗网络

我们设计了多内容 GAN 架构 [2] 来为每个观察到的字符集(只具备少量观察到的字形)重新训练定制的魔法网络,而不是为所有可能的字体装饰训练单个网络。该模型考虑沿着信道的内容(即 A-Z 字形)和沿着网络层的样式(即字形装饰),将给定字形的样式迁移到模型未见过的字形的内容。

多内容 GAN 模型包括用于预测粗糙字形形状的堆叠 cGAN 架构和用于预测最终字形颜色和纹理的装饰网络(ornamentation network)。第一个网络称为 GlyphNet,用于预测字形掩码;第二个网络称为 OrnaNet,用于微调从第一个网络生成字形的颜色和装饰。每个子网络遵循条件生成对抗网络(cGAN)的结构,并修改该结构以达到使字形风格化或装饰预测的特定目的。

网络架构

下面是 GlyphNet 示意图,它从一组训练字体中学习字体流形的一般形状。GlyphNet 的输入和输出是字形的堆栈,其中每个字母分配有一个通道。在每个训练迭代中,x_1 包含一个由 y_1 字形组成的随机子集,剩余输入通道被清零。

通过这种新颖的字形堆栈设计,跨网络信道学习不同字形之间的相关性得以实现,并实现风格自动迁移。下图通过结构类似性(SSIM)指标在包含 1500 个字体样例的随机集合上展示了这种相关性。计算每个生成字形与其真实字形之间的结构相似性时,当一次观察到一个字母时,共发现了 25 种分布。这些曲线图显示了当观察到字母 β(蓝色)时生成字母 α 的分布 α|β 与当给出除 β 以外的任何其它字母(红色)时生成字母 α 的分布 α|β。在生成 26 个字母中的每一个字母时,两个信息量最大的给定字母和两个信息量最少的给定字母的分布如图所示。例如,从图的第五行来看,与其他字母相比,字母 F 和 B 在生成字母 E 方面是最有信息贡献的,而 I 和 W 是信息最少的。其他例子中,O 和 C 是构造 G 的最具指导性的字母,R 和 B 是生成 P 的最具指导性的字母。

因此,对于任何仅有几个观察字母的期望字体,预训练的 GlyphNet 要生成全部的 26 个 A-Z 字形。但是我们应该如何迁移装饰呢?第二个网络 OrnaNet 采用这些生成的字形,在简单的整形变换(reshape transformation)和灰度信道重复之后(在下图中用 T 表示),使用条件 GAN 架构生成具备期望颜色和装饰的输出。OrnaNet 的输入和输出是批量的 RGB 图像,而不是堆栈(其中每个字母的 RGB 信道是其对应的灰度字形的重复)。OrnaNet 中的多个正则化器会惩罚风格化字母掩膜与其对应字形形状的偏差。

结果

下面,我们将使用单个单词给出的字体样式演示例句。

此外,以下是 OrnaNet 预测的逐步改进:

参考资料

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

论文链接:https://arxiv.org/abs/1712.00516

GitHub 链接:https://github.com/azadis/MC-GAN

原文链接:http://bair.berkeley.edu/blog/2018/03/13/mcgan/

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SysML 2019论文解读:推理优化

    随着机器学习和人工智能领域的持续发展,神经网络及其代表性的算法通过提升计算成本而实现了越来越高的准确度。量化(quantization)是一种以准确度为代价旨在...

    机器之心
  • 7 Papers & Radios | 轮腿两用机器人;领域知识图谱综述

    论文 1:Using Manipulation to Enable Adaptive Ground Mobility

    机器之心
  • 7 Papers & Radios | 超图表示学习新框架HNHN;GNN的泛化与表示极限

    论文 1:Implicit Neural Representations with Periodic Activation Functions

    机器之心
  • 伯克利AI实验室:看一个艺术字单词就能生成同种艺术风格的句子

    AiTechYun 编辑:yuxiangyu ? 左:给出电影海报,右:由MC-GAN生成的新电影片名。 文字是二维设计的需要突出的视觉元素。设计师花费大量时间...

    AiTechYun
  • 动态 | 伯克利最新研究:GANs在字体风格迁移上的应用

    AI科技评论按:怎样能快速生成风格相同的字体呢?伯克利 AI 研究院最新发表的一篇博客告诉你他们最新的研究。 ? 左:给出的电影海报,右:由MC-GAN生成的新...

    AI科技评论
  • 深度神经网络生成模型:从 GAN VAE 到 CVAE-GAN

    作者 | Blink·禀临科技 联合创始人·彭博 整理 | AI科技大本营(rgznai100) 在几年前,深度神经网络的热门话题是分类问题: 给定一张图 x,...

    AI科技大本营
  • Android平台JSON预览(JSON-handle)

    Chrome常用的插件JSON-handle,用过的都知道。 最近在做接口加密,所有的数据(request和response)都是加密数据,无法沟通fildd...

    静默加载
  • Go语言实战笔记(二十二)| Go 基准测试

    基准测试,是一种测试代码性能的方法,比如你有多种不同的方案,都可以解决问题,那么到底是那种方案性能更好呢?这时候基准测试就派上用场了。

    飞雪无情
  • 图像生成:GAN

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    chaibubble
  • 玩转Elasticsearch源码-一张图看懂ES启动流程

    上图中虚线表示进入具体流程,实线表示下一步,为了后面讲解方便每个步骤都加了编号。 先简单介绍下启动流程主要涉及的类:

    左手java右手go

扫码关注云+社区

领取腾讯云代金券