如何评价Google最新发布的增强型风格迁移算法?

Google最新发布了一种新的迁移网络(来自其论文《A Learned Representation for Artistic Style》)同时学习多种风格的简单方法,可以简单地让单个深度卷积风格迁移网络(Deep Convolutional style Transfer Network)同时学习多种艺术风格。

这种方法能实现实时的风格插补(Style Interpolation),其不仅可以应用于静态图像,还可应用于视频中。

如上图所示,在实际使用中用户可使用13种不同的绘画风格,通过滑块调整这些风格的相对强度。多种风格实时结合到一起,最后得到一个输出。

下图是 4 种风格按不同比例结合的成果:

与之前快速迁移风格的方法不同,这种同时建模多种风格的方法让用户能实时与风格迁移算法进行交互,而且可以基于多个风格的混合进行自由创造。

这让我们想起了之前红极一时的图片应用Prisma,Google所推出的这种迁移网络与之有何不同呢?

Prisma

Prisma应用基于论文《A Neural Algorithm of Artistic Style》中一种使用深度卷积神经网络(CNN)分类器的方法开发而来,其系统核心是利用神经表征来进行分离,再组合随机图片的内容和风格,以此来实现一个可用来描绘艺术图像的算法。

该算法利用一个多层的卷积神经网络(CNN)抽象出给定绘画作品里一些高级的隐藏特征用来模仿绘画风格,并把这个绘画风格应用到一个新的图片上。此外,该算法会寻找一张给出该 CNN 的底层中同种类型激活(activation)的图像,这些底层会获取风格的输入(宽笔触和立体美感等等)。另外,该算法还会在更高层产生激活。

这项成果——《A Neural Algorithm of Artistic Style》首次提供了基于神经网络的风格迁移的概念证明,但是这种为单张图像施加风格的方法对计算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他们打算把应用从静态图片扩展到视频领域,但这种拓展将主要有两个挑战:

  1. 视频的数据处理量比图片更大,对计算能力的要求将显著提升。
  2. 如何保持帧图像在时间轴上的信息一致性,而不是单独处理每一帧图像。

目前最新版本的Prisma也能实现对视频进行处理,但是由于手机计算能力的限制,其目前无法做到实时的效果。

对于这个问题,我们有请教华南理工大学在读博士研究生蔡博伦(主要研究方向是:机器学习、计算机视觉、图像处理等)他表示:

Prisma是约束两张图片在cnn的中间层具有相同的表示,然后再反向传导回去,是一个迭代收敛过程。 Google提出的迁移网络是直接训练一个Artistic Style network,它是一个end-to-end的网络,只需前向、不需迭代,所以其可以做到实时的风格迁移。而Prisma没有网络的训练,直接用imagenet的网络。 另外,Prisma的技术属于生成网络的一种,是从Science 那篇BPL《Human-level concept learning through probabilistic program induction》)开始火起来的一个深度学习方向。Google的方法是工业上的好方法,Prisma的方法则在学术研究上会更有趣。

另外,我们有请教到来自图普科技的冯子健,他认为:

Google此项技术所利用的网络结构和Prisma所利用到的网络结构几乎是一样的(卷积神经网络)。最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。 这篇文章的猜想是,其实把一张图片转变成多种风格,在计算上有很多相似的地方,而卷积层起到的作用是提取图片的风格基本元素,而Normalization层的scale & shift参数对不同风格的转换起着决定性的作用。所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。 Google这篇文章虽然展示了不错的结果,但是对背后原理的解释还停留在猜想阶段。 之前版本的Prisma将他们的模型放在云端,所以除了风格转换的实际时间,还有网络传输的时间(Prisma的服务器应该在莫斯科)。最新的Prisma iOS版本可以实现离线风格转换,原理是把模型下载到手机上,然后利用CPU计算,这样每对一张图片进行风格化需要6~7秒的时间。目前现有的技术可以都可以在GPU上做到实时,但是这依然是一个计算量非常大的工作(Prisma返回的图片都是1080P)。 视频风格化和图片风格化的原理是一样的,因为视频本质上就是一帧帧的图片。第一代风格化技术很难用在视频上的原因是因为利用这种方法即使是风格化一张图片在GPU上都要非常长的时间。

小结:

从各方的评论及反馈来看,相较于Prisma,Google最新发布的增强型风格迁移算法有相同点,也有不同点。

相同点

  • 都是基于之前论文《A Neural Algorithm of Artistic Style》里面的内容改进而来。
  • 所利用到的网络结构几乎是一样的(卷积神经网络)。
  • 视频本质上就是一帧帧的图片,两者都可以做到(只是目前前者的速度要慢)。

不同点

  • 最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。
  • 所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。
  • Google直接训练了一个Artistic Style network,作为一个end-to-end的网络,它只需前向、不需迭代,所以其能实现图片、视频实时的风格迁移。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」

或许这也是一种方法论:当针对一个问题有多种方法时,不妨将它们综合起来,或能取各家之长,补各家之短。

712
来自专栏人工智能头条

深度学习:推动NLP领域发展的新引擎

1815
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场3

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

600
来自专栏数说工作室

拒绝无聊,如何让AI学会“花式聊天”?对抗学习在聊天回复生成中的曲折探索

【数说君导读】 生成式对抗网络(GAN),不仅可以用于生成图像(除马赛克,你懂的),还可以用在自动聊天模型上。跟机器人聊天,你也许最怕听到类似 “我也这么觉得...

3154
来自专栏AI科技评论

清华大学岂凡超:义原的介绍和义原的自动推荐 | AI研习社76期大讲堂总结

义原(Sememe)在语言学中是指最小的不可再分的语义单位,而知网(HowNet)则是最著名的义原知识库。近些年来,包括知网在内的语言知识库在深度学习模型中的重...

663
来自专栏机器之心

专栏 | 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh

Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项...

592
来自专栏CVer

[计算机视觉论文速递] 2018-05-16

这篇文章有4篇论文速递信息,涉及单目图像深度估计、6-DoF跟踪、图像合成和动作捕捉等方向(含1篇CVPR 2018论文和1篇ICRA 2018论文)。

832
来自专栏机器之心

深度 | 2017CV技术报告:从3D物体重建到人体姿态估计

3648
来自专栏MyBlog

A Survey on Dialogue Systems: Recent Advances and New Frontiers 论文笔记

对话系统受到越来越多人的关注, 深度学习的兴起也带动了一系列研究的发展, 深度学习能够利用大量的数据和少量的人工处理来学习有意义的特征表达以及回答的生成策略, ...

571
来自专栏机器之心

学界 | 宅男的福音:用GAN自动生成二次元萌妹子

46911

扫码关注云+社区