如何评价Google最新发布的增强型风格迁移算法?

Google最新发布了一种新的迁移网络(来自其论文《A Learned Representation for Artistic Style》)同时学习多种风格的简单方法,可以简单地让单个深度卷积风格迁移网络(Deep Convolutional style Transfer Network)同时学习多种艺术风格。

这种方法能实现实时的风格插补(Style Interpolation),其不仅可以应用于静态图像,还可应用于视频中。

如上图所示,在实际使用中用户可使用13种不同的绘画风格,通过滑块调整这些风格的相对强度。多种风格实时结合到一起,最后得到一个输出。

下图是 4 种风格按不同比例结合的成果:

与之前快速迁移风格的方法不同,这种同时建模多种风格的方法让用户能实时与风格迁移算法进行交互,而且可以基于多个风格的混合进行自由创造。

这让我们想起了之前红极一时的图片应用Prisma,Google所推出的这种迁移网络与之有何不同呢?

Prisma

Prisma应用基于论文《A Neural Algorithm of Artistic Style》中一种使用深度卷积神经网络(CNN)分类器的方法开发而来,其系统核心是利用神经表征来进行分离,再组合随机图片的内容和风格,以此来实现一个可用来描绘艺术图像的算法。

该算法利用一个多层的卷积神经网络(CNN)抽象出给定绘画作品里一些高级的隐藏特征用来模仿绘画风格,并把这个绘画风格应用到一个新的图片上。此外,该算法会寻找一张给出该 CNN 的底层中同种类型激活(activation)的图像,这些底层会获取风格的输入(宽笔触和立体美感等等)。另外,该算法还会在更高层产生激活。

这项成果——《A Neural Algorithm of Artistic Style》首次提供了基于神经网络的风格迁移的概念证明,但是这种为单张图像施加风格的方法对计算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他们打算把应用从静态图片扩展到视频领域,但这种拓展将主要有两个挑战:

  1. 视频的数据处理量比图片更大,对计算能力的要求将显著提升。
  2. 如何保持帧图像在时间轴上的信息一致性,而不是单独处理每一帧图像。

目前最新版本的Prisma也能实现对视频进行处理,但是由于手机计算能力的限制,其目前无法做到实时的效果。

对于这个问题,我们有请教华南理工大学在读博士研究生蔡博伦(主要研究方向是:机器学习、计算机视觉、图像处理等)他表示:

Prisma是约束两张图片在cnn的中间层具有相同的表示,然后再反向传导回去,是一个迭代收敛过程。 Google提出的迁移网络是直接训练一个Artistic Style network,它是一个end-to-end的网络,只需前向、不需迭代,所以其可以做到实时的风格迁移。而Prisma没有网络的训练,直接用imagenet的网络。 另外,Prisma的技术属于生成网络的一种,是从Science 那篇BPL《Human-level concept learning through probabilistic program induction》)开始火起来的一个深度学习方向。Google的方法是工业上的好方法,Prisma的方法则在学术研究上会更有趣。

另外,我们有请教到来自图普科技的冯子健,他认为:

Google此项技术所利用的网络结构和Prisma所利用到的网络结构几乎是一样的(卷积神经网络)。最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。 这篇文章的猜想是,其实把一张图片转变成多种风格,在计算上有很多相似的地方,而卷积层起到的作用是提取图片的风格基本元素,而Normalization层的scale & shift参数对不同风格的转换起着决定性的作用。所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。 Google这篇文章虽然展示了不错的结果,但是对背后原理的解释还停留在猜想阶段。 之前版本的Prisma将他们的模型放在云端,所以除了风格转换的实际时间,还有网络传输的时间(Prisma的服务器应该在莫斯科)。最新的Prisma iOS版本可以实现离线风格转换,原理是把模型下载到手机上,然后利用CPU计算,这样每对一张图片进行风格化需要6~7秒的时间。目前现有的技术可以都可以在GPU上做到实时,但是这依然是一个计算量非常大的工作(Prisma返回的图片都是1080P)。 视频风格化和图片风格化的原理是一样的,因为视频本质上就是一帧帧的图片。第一代风格化技术很难用在视频上的原因是因为利用这种方法即使是风格化一张图片在GPU上都要非常长的时间。

小结:

从各方的评论及反馈来看,相较于Prisma,Google最新发布的增强型风格迁移算法有相同点,也有不同点。

相同点

  • 都是基于之前论文《A Neural Algorithm of Artistic Style》里面的内容改进而来。
  • 所利用到的网络结构几乎是一样的(卷积神经网络)。
  • 视频本质上就是一帧帧的图片,两者都可以做到(只是目前前者的速度要慢)。

不同点

  • 最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。
  • 所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。
  • Google直接训练了一个Artistic Style network,作为一个end-to-end的网络,它只需前向、不需迭代,所以其能实现图片、视频实时的风格迁移。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏文章翻译

如何实现机器学习算法

在代码中实现一个机器学习算法可以教你很多关于算法和它的工作原理。

2249
来自专栏量子位

微软旗下Maluuba推出看图问答数据集,想让AI看懂图表

安妮 编译整理 量子位 出品 | 公众号 QbitAI ? 科学图表能简洁地概括趋势、速率和比例等有价值的信息,让我们直观地了解概念。而机器对这种结构化视觉信息...

3174
来自专栏机器学习算法与Python学习

CVPR 2018,盘点我心中的创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

610
来自专栏数据派THU

吴恩达新书《Machine Learning Yearning》中7个实用建议(附论文)

《Machine Learning Yearning》是人工智能和深度学习界的专家吴恩达写的一本书,这本书致力于讲明白机器学习算法是怎样工作的,以及如何构建一个...

984
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(13-15讲)

1343
来自专栏AI研习社

CV 届的金鸡百花奖:盘点我心中的 CVPR 2018 创意 TOP10

2018 计算机视觉与模式识别会议 (CVPR) 上周在美国盐湖城举行,它是世界计算机视觉领域的顶级会议。今年,CVPR 收到了主要会议论文投稿 3300 份,...

973
来自专栏ATYUN订阅号

谷歌又出新招数,利用深度学习的视听模型进行语音分离

AiTechYun 编辑:chux ? 即使在嘈杂的环境下,人们也能够将注意力放在特定的人身上,选择性忽略其他人的声音和环境音。这被称作鸡尾酒会效应,对人类来说...

3756
来自专栏机器之心

吴恩达的最新研究是否严谨?Nature论文作者撰文质疑AI医疗影像研究现状

3588
来自专栏AI科技评论

AI科技评论周刊:你有没有想过,要成为一个AI领域的大神?

未来是一个AI的时代吗?很有可能是的,几乎每天都能看到AI相关的新闻,你会不会也有一种想要钻研AI,制造下一个AlphaGo的冲动? 可是学习AI说难不算特别难...

2637
来自专栏ATYUN订阅号

【学术】从一个简单的模型开始,可以让机器学习更高效

AiTechYun 编辑:xiaoshan ? 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的...

3967

扫描关注云+社区