如何评价Google最新发布的增强型风格迁移算法?

Google最新发布了一种新的迁移网络(来自其论文《A Learned Representation for Artistic Style》)同时学习多种风格的简单方法,可以简单地让单个深度卷积风格迁移网络(Deep Convolutional style Transfer Network)同时学习多种艺术风格。

这种方法能实现实时的风格插补(Style Interpolation),其不仅可以应用于静态图像,还可应用于视频中。

如上图所示,在实际使用中用户可使用13种不同的绘画风格,通过滑块调整这些风格的相对强度。多种风格实时结合到一起,最后得到一个输出。

下图是 4 种风格按不同比例结合的成果:

与之前快速迁移风格的方法不同,这种同时建模多种风格的方法让用户能实时与风格迁移算法进行交互,而且可以基于多个风格的混合进行自由创造。

这让我们想起了之前红极一时的图片应用Prisma,Google所推出的这种迁移网络与之有何不同呢?

Prisma

Prisma应用基于论文《A Neural Algorithm of Artistic Style》中一种使用深度卷积神经网络(CNN)分类器的方法开发而来,其系统核心是利用神经表征来进行分离,再组合随机图片的内容和风格,以此来实现一个可用来描绘艺术图像的算法。

该算法利用一个多层的卷积神经网络(CNN)抽象出给定绘画作品里一些高级的隐藏特征用来模仿绘画风格,并把这个绘画风格应用到一个新的图片上。此外,该算法会寻找一张给出该 CNN 的底层中同种类型激活(activation)的图像,这些底层会获取风格的输入(宽笔触和立体美感等等)。另外,该算法还会在更高层产生激活。

这项成果——《A Neural Algorithm of Artistic Style》首次提供了基于神经网络的风格迁移的概念证明,但是这种为单张图像施加风格的方法对计算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他们打算把应用从静态图片扩展到视频领域,但这种拓展将主要有两个挑战:

  1. 视频的数据处理量比图片更大,对计算能力的要求将显著提升。
  2. 如何保持帧图像在时间轴上的信息一致性,而不是单独处理每一帧图像。

目前最新版本的Prisma也能实现对视频进行处理,但是由于手机计算能力的限制,其目前无法做到实时的效果。

对于这个问题,我们有请教华南理工大学在读博士研究生蔡博伦(主要研究方向是:机器学习、计算机视觉、图像处理等)他表示:

Prisma是约束两张图片在cnn的中间层具有相同的表示,然后再反向传导回去,是一个迭代收敛过程。 Google提出的迁移网络是直接训练一个Artistic Style network,它是一个end-to-end的网络,只需前向、不需迭代,所以其可以做到实时的风格迁移。而Prisma没有网络的训练,直接用imagenet的网络。 另外,Prisma的技术属于生成网络的一种,是从Science 那篇BPL《Human-level concept learning through probabilistic program induction》)开始火起来的一个深度学习方向。Google的方法是工业上的好方法,Prisma的方法则在学术研究上会更有趣。

另外,我们有请教到来自图普科技的冯子健,他认为:

Google此项技术所利用的网络结构和Prisma所利用到的网络结构几乎是一样的(卷积神经网络)。最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。 这篇文章的猜想是,其实把一张图片转变成多种风格,在计算上有很多相似的地方,而卷积层起到的作用是提取图片的风格基本元素,而Normalization层的scale & shift参数对不同风格的转换起着决定性的作用。所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。 Google这篇文章虽然展示了不错的结果,但是对背后原理的解释还停留在猜想阶段。 之前版本的Prisma将他们的模型放在云端,所以除了风格转换的实际时间,还有网络传输的时间(Prisma的服务器应该在莫斯科)。最新的Prisma iOS版本可以实现离线风格转换,原理是把模型下载到手机上,然后利用CPU计算,这样每对一张图片进行风格化需要6~7秒的时间。目前现有的技术可以都可以在GPU上做到实时,但是这依然是一个计算量非常大的工作(Prisma返回的图片都是1080P)。 视频风格化和图片风格化的原理是一样的,因为视频本质上就是一帧帧的图片。第一代风格化技术很难用在视频上的原因是因为利用这种方法即使是风格化一张图片在GPU上都要非常长的时间。

小结:

从各方的评论及反馈来看,相较于Prisma,Google最新发布的增强型风格迁移算法有相同点,也有不同点。

相同点

  • 都是基于之前论文《A Neural Algorithm of Artistic Style》里面的内容改进而来。
  • 所利用到的网络结构几乎是一样的(卷积神经网络)。
  • 视频本质上就是一帧帧的图片,两者都可以做到(只是目前前者的速度要慢)。

不同点

  • 最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。
  • 所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。
  • Google直接训练了一个Artistic Style network,作为一个end-to-end的网络,它只需前向、不需迭代,所以其能实现图片、视频实时的风格迁移。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

吃瓜笔记 | 旷视研究院解读Light-Head R-CNN:平衡精准度和速度

主讲人:黎泽明 | 旷视研究院研究员 屈鑫 编辑整理 量子位 出品 | 公众号 QbitAI 12月20日晚,量子位·吃瓜社联合Face++论文解读系列第三期开...

3235
来自专栏刘明的小酒馆

文本相似度算法小结

首先是最简单粗暴的算法。为了对比两个东西的相似度,我们很容易就想到可以看他们之间有多少相似的内容,又有多少不同的内容,再进一步可以想到集合的交并集概念。

76410
来自专栏美图数据技术团队

深度模型DNN在个性化推荐场景中的应用

随着深度神经网络在语音和图像识别上取得的巨大成功,AlphaGo 战胜人类围棋顶尖高手,以深度网络为基础的人工智能迎来第三次高潮。与此同时互联网所面临的信息超载...

1412
来自专栏CreateAMind

使用模仿学习攻克Atari最难游戏!DeepMind新论文解读

953
来自专栏CDA数据分析师

大数据时代空间数据挖掘的认识及其思考

引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开始并不知道但是却隐藏在空间数据中潜在的、有价值的规则的过程。具体来说,空间数据挖掘就...

24810
来自专栏大数据挖掘DT机器学习

深度学习word2vec笔记(基础篇)

一.前言 伴随着深度学习的大红大紫,只要是在自己的成果里打上deep learning字样,总会有人去看。深度学习可以称为当今机器学习领域的当之无愧的巨星,也特...

4564
来自专栏机器之心

学界 | 跟着大神回顾ACL 2018:大会亮点一览

很高兴看到很多论文都在从方法上研究现有模型以及它们捕获的内容,而不是一直在引入更新的模型。进行这样的研究最常用的办法是自动创建一个侧重于泛化行为的某个特定方面的...

1142
来自专栏CDA数据分析师

MIT公开课-机器学习导论(附视频中字)

MIT6.0002课程《计算机科学与用Python编程》(Computer Science and Programming in Python)针对没有或有少量...

22010
来自专栏机器之心

三张图读懂机器学习:基本概念、五大流派与九种常见算法

选自PwC 作者:Alan Morrison、Anand Rao 机器之心编译 参与:吴攀、晏奇 机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。...

2825
来自专栏AI科技评论

学界 | 腾讯 AI Lab 解读16篇 EMNLP 2018 入选论文

EMNLP 是自然语言处理领域的顶级会议,它的全称是Conference on Empirical Methods in Natural Language Pr...

1091

扫码关注云+社区