前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何评价Google最新发布的增强型风格迁移算法?

如何评价Google最新发布的增强型风格迁移算法?

作者头像
AI科技评论
发布2018-03-08 16:32:58
1.4K0
发布2018-03-08 16:32:58
举报
文章被收录于专栏:AI科技评论AI科技评论

Google最新发布了一种新的迁移网络(来自其论文《A Learned Representation for Artistic Style》)同时学习多种风格的简单方法,可以简单地让单个深度卷积风格迁移网络(Deep Convolutional style Transfer Network)同时学习多种艺术风格。

这种方法能实现实时的风格插补(Style Interpolation),其不仅可以应用于静态图像,还可应用于视频中。

如上图所示,在实际使用中用户可使用13种不同的绘画风格,通过滑块调整这些风格的相对强度。多种风格实时结合到一起,最后得到一个输出。

下图是 4 种风格按不同比例结合的成果:

与之前快速迁移风格的方法不同,这种同时建模多种风格的方法让用户能实时与风格迁移算法进行交互,而且可以基于多个风格的混合进行自由创造。

这让我们想起了之前红极一时的图片应用Prisma,Google所推出的这种迁移网络与之有何不同呢?

Prisma

Prisma应用基于论文《A Neural Algorithm of Artistic Style》中一种使用深度卷积神经网络(CNN)分类器的方法开发而来,其系统核心是利用神经表征来进行分离,再组合随机图片的内容和风格,以此来实现一个可用来描绘艺术图像的算法。

该算法利用一个多层的卷积神经网络(CNN)抽象出给定绘画作品里一些高级的隐藏特征用来模仿绘画风格,并把这个绘画风格应用到一个新的图片上。此外,该算法会寻找一张给出该 CNN 的底层中同种类型激活(activation)的图像,这些底层会获取风格的输入(宽笔触和立体美感等等)。另外,该算法还会在更高层产生激活。

这项成果——《A Neural Algorithm of Artistic Style》首次提供了基于神经网络的风格迁移的概念证明,但是这种为单张图像施加风格的方法对计算的要求很高。

Prisma 的CEO Alexei Moiseyenkov也曾提到,他们打算把应用从静态图片扩展到视频领域,但这种拓展将主要有两个挑战:

  1. 视频的数据处理量比图片更大,对计算能力的要求将显著提升。
  2. 如何保持帧图像在时间轴上的信息一致性,而不是单独处理每一帧图像。

目前最新版本的Prisma也能实现对视频进行处理,但是由于手机计算能力的限制,其目前无法做到实时的效果。

对于这个问题,我们有请教华南理工大学在读博士研究生蔡博伦(主要研究方向是:机器学习、计算机视觉、图像处理等)他表示:

Prisma是约束两张图片在cnn的中间层具有相同的表示,然后再反向传导回去,是一个迭代收敛过程。 Google提出的迁移网络是直接训练一个Artistic Style network,它是一个end-to-end的网络,只需前向、不需迭代,所以其可以做到实时的风格迁移。而Prisma没有网络的训练,直接用imagenet的网络。 另外,Prisma的技术属于生成网络的一种,是从Science 那篇BPL《Human-level concept learning through probabilistic program induction》)开始火起来的一个深度学习方向。Google的方法是工业上的好方法,Prisma的方法则在学术研究上会更有趣。

另外,我们有请教到来自图普科技的冯子健,他认为:

Google此项技术所利用的网络结构和Prisma所利用到的网络结构几乎是一样的(卷积神经网络)。最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。 这篇文章的猜想是,其实把一张图片转变成多种风格,在计算上有很多相似的地方,而卷积层起到的作用是提取图片的风格基本元素,而Normalization层的scale & shift参数对不同风格的转换起着决定性的作用。所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。 Google这篇文章虽然展示了不错的结果,但是对背后原理的解释还停留在猜想阶段。 之前版本的Prisma将他们的模型放在云端,所以除了风格转换的实际时间,还有网络传输的时间(Prisma的服务器应该在莫斯科)。最新的Prisma iOS版本可以实现离线风格转换,原理是把模型下载到手机上,然后利用CPU计算,这样每对一张图片进行风格化需要6~7秒的时间。目前现有的技术可以都可以在GPU上做到实时,但是这依然是一个计算量非常大的工作(Prisma返回的图片都是1080P)。 视频风格化和图片风格化的原理是一样的,因为视频本质上就是一帧帧的图片。第一代风格化技术很难用在视频上的原因是因为利用这种方法即使是风格化一张图片在GPU上都要非常长的时间。

小结:

从各方的评论及反馈来看,相较于Prisma,Google最新发布的增强型风格迁移算法有相同点,也有不同点。

相同点

  • 都是基于之前论文《A Neural Algorithm of Artistic Style》里面的内容改进而来。
  • 所利用到的网络结构几乎是一样的(卷积神经网络)。
  • 视频本质上就是一帧帧的图片,两者都可以做到(只是目前前者的速度要慢)。

不同点

  • 最大的不同就是这个网络用了一个叫"Conditional Instance Normalization"的层来代替原网络的"Batch Normalization"。
  • 所以N种风格转换的卷积网络,它们的卷积核是完全一样的,唯一的不同就是Normalization层的scale & shift参数。
  • Google直接训练了一个Artistic Style network,作为一个end-to-end的网络,它只需前向、不需迭代,所以其能实现图片、视频实时的风格迁移。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Prisma
  • 小结:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档