专栏首页新智元【虫二】的人工智能

【虫二】的人工智能

艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些年来,机器视觉和人工智能的发展正在将艺术拉下神坛,几乎人类智能的一切领域都正在被人工智能所解构和颠覆。可以毫不夸张的说,人工智能似乎很快就能够达到“虫二”(风月无边)的境界。

在视觉艺术领域,抽象的艺术风格已经可以被严密数学化,并且可以被提取,变换和转移。一幅艺术作品,其内容(content)和风格(style)紧密缠绕在一起,似乎是密不可分的,但是两者又是相对独立的。如何将内容和风格相剥离,如何各自表示,如何将不同艺术作品的内容和风格有机结合,这些都是玄妙而又基本的问题。我们考察一些近期刚刚发展起来的巧妙算法,看看它们是如何建模并解决这些问题的。

最优传输方法【1】

我们考察下面两张图。图像 1 是山脚下牧场的田园风光,苍松翠柏,绿草茵茵,艳阳高照,生机盎然;图像 2 是古老庄园中的林荫道,午后斜阳,遍地碎金,藤萝蔽日,虬枝遮天。第一幅图像似乎摄于春夏,洋溢着勃勃生机;第二幅图像似乎是深秋日暮,没落抑郁。如果将第一幅图像的内容和第二幅图像的风格相结合,我们得到第三幅图像,深秋山脚下的牧场,残阳如血,山林如炬,凄艳欲绝,离恨顿生。

Figure1 输入图像

Figure 2 示例图像

Figure 3 图像1的内容 + 图像2的风格

人类的感知都是基于概率的。这种方法将摄影风格抽象为色彩的概率分布。每个像素的颜色表示成颜色空间的一个点 (红,绿,蓝)。每幅图像颜色的直方图(Histogram) 给出了颜色分布的概率分布函数(PDF)。

Figure 4. 颜色分布概率密度函数。第三幅图像是第一幅的内容加上第二幅的风格。【6】

陈省身曾经说过蒙日-安培方程是最为非线性的偏微分方程。最近,丘成桐团队给出基于变分法的构造性解法【5】。

将视觉图像的艺术风格理解为色彩空间的概率分布,想法虽然简单,但是很多时候卓有成效。

频谱能量密度【2】

下图是将一幅随意的摄影相片转换成不同风格的肖像作品的示例。首先输入相片和样本相片之间建立映射,然后将相片进行类似小波变换,转换成所谓的

拉普拉斯堆栈(Laplace Stack),在频率域,计算每个频段的能量密度函数。将输入图片的每个频段的能量密度函数加以调整,使得其和样本图片的能量密度函数大致吻合。最后施行逆变换,得到输出图像。

Figure 5. 不同风格的人物肖像自动生成。

这种方法可以改变图像的颜色,对比度,光照,散聚焦, 同时保留表情,姿态,形状,透视和焦距。这种方法将艺术风格理解为多尺度下,图像局部统计特性,特别是局部对比度的统计特性。第一种方法只是做了全局的统计,丢失了多尺度和局部统计信息。但是,这种方法需要输入图像和样本图像比较接近,因此局限性较大,不如最优传输法灵活。

深度学习法【3】

人类的视觉计算是一个非常复杂的过程,如图 6 所示,在大脑皮层上有多个视觉功能区域(v1 至 v5等),低级区域的输出成为高级区域的输入。低级区域识别图像中像素级别的局部的特征,例如边缘折角结构,高级区域将低级特征组合成全局特征,形成复杂的模式,模式的抽象程度逐渐提高,直至语义级别。如图 7 所示,我们可以毫不费力地辨认出左帧是奥巴马的肖像,右帧是两只兔子的白描。其实,图中大量信息丢失,但是提供了足够的整体模式。由此可见,视觉高级中枢忽略色彩,纹理,光照等局部细节,侧重整体模式匹配和上下文关系,并可以主动补充大量缺失信息。

Figure 6. 大脑皮层的视觉中枢,视觉信号的传导途径:视网膜,LGN, V1, V2, V3, V4, V5 等。

Figure 7. 高级视觉中枢忽略细节,识别主要模式,主动补充缺失信息。

如果我们有两张图片,分别用卷积神经网络来分解得到内容和风格,然后,我们可以将其风格的表示互换,重构图像,这样就实现了“内容保持,风格变换”的图像。这里,我们展示一些计算结果:

如上几个例子不容置疑地展现了人工智能的方法可以分离艺术内容和艺术风格,并且能够恰切地表示内容和风格,自如地转换,合成艺术风格。虽然计算机的能力令人惊艳,但是今天最终艺术作品的审美和评判依然不可替代地由人类来完成。那么,是否会在不远的将来,人类的审美能力也会被量化,由数学公式精确地推演,最终由人工智能来越俎代庖呢?人工智能真地能够达到“虫二”的境界吗?我们人类是应该对此期待还是恐惧?

【1】Nicolas Bonneel, Michiel van de Panne, Sylvain Paris, Wolfgang Heidrich, Displacement Interpolation Using Lagrangian Mass Transport, ACM TOG, 30(6), SIGGRAPH ASIA, 2011

【2】YiChang Shih, Sylvain Paris, Connelly Barnes , William T. Freeman, Fredo Durand, Style Transfer for Headshot Portraits, ACM TOG, 33(4), SIGGRAPH, 2014

【3】Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, A Neural Algorithm of Artistic Style, arXiv:1508.06576v1

【4】https://github.com/jcjohnson/neural-style

【5】Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles for Minkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere Equations, Asian Journal of Mathematics (AJM), 2015

【6】Gabriel Peyre, An Introduction to Optimal Transport, www.numerical-tours.com

本文分享自微信公众号 - 新智元(AI_era),作者:顾险峰

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 震撼!英伟达用深度学习做图像修复,毫无ps痕迹

    新智元
  • 【风格化+GAN】感知对抗网络 PAN,一个框架搞定多种图像转换

    【新智元导读】pix2pix 又有更新:悉尼大学的 Chaoyue Wang 等人受生成对抗网络(GAN)启发,在已有的感知损失基础上,提出了感知对抗网络(Pe...

    新智元
  • 英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)

    来源:arxiv.org 编译:马文 【新智元导读】英伟达和UC Berkeley的研究者最近公开一个名为pix2pixHD的项目,并公开了论文和代码。pix2...

    新智元
  • 四个任务就要四个模型?现在单个神经网络模型就够了!

    AI 科技评论按:顾名思义,「表示」(representation)就是指在网络中对信息进行编码的方式。为了让大家充分理解「表示」,本文作者尝试构建一个能同时完...

    AI科技评论
  • Deep Image Prior——图像恢复入门

    图像恢复是指从其劣质图像中恢复未知真实图像的任务。 图像损耗可能在图像形成,传输和存储期间发生。 该任务广泛的用于卫星成像,低光摄影。由于数字技术的进步,计算和...

    朱晓霞
  • 图像处理入门基础

    1、数字图像处理是指将图像信号转换成数字信号并利用计算机对其进行处理的过程,图像看成二维、三维或者更高维的信号。

    长风破浪
  • IQ1: 怎么定义图像的质量?如何评价图像的质量?

    我的这个专栏叫做图像质量评价,但是什么叫做图像的质量呢? 图像质量是一个非常宽泛的概念,在不同情况下有不同的理解。

    HawkWang
  • 图解自监督学习,人工智能蛋糕中最大的一块

    如果人工智能是一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。

    AI算法与图像处理
  • 图解自监督学习,人工智能蛋糕中最大的一块

    如果人工智能是一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。

    石晓文
  • 图像处理,计算机视觉和人工智能之间的差异

    图像处理和计算机视觉是超级令人兴奋的研究和研究领域。随着人工智能的进步,这两个领域都在不断发展。

    kbsc13

扫码关注云+社区

领取腾讯云代金券