超级变变变:喵星人汪星人还有街景神奇变身 | Paper+Code

夏乙 千平 发自猴姆 量子位 出品 | 公众号 QbitAI

只会卖萌的猫主子分分钟变身百兽之王? 白天能不能懂夜的黑? 你的汪星人如果是其他品种会是什么样?

不用想象,有个AI已经(完全不用人插手)“脑补”一切。先展示结果:

给一张小猫咪的图像(左边),AI就能自动让它变身狮子王(右边)。

给一张白天的图像(左边),AI就能自动脑补出夜晚的样子(右边),还把灯效加上了~

给一张冬天的图像(左边),AI就能脑补夏天会是什么景象(右边),还把叶子加上了~

UNIT

上面这些神奇的变身,都属于“图像到图像翻译”的问题。

这些结果都来自Nvidia研究团队的一篇NIPS 2017论文:UNsupervised Image-to-image Translation networks。

Ming-Yu Liu(刘洺堉)等研究员提出了一种基于耦合生成对抗网络(Coupled GAN)和变分自动编码器(VAE)的无监督图像到图像翻译框架,他们还根据首字母缩写(强行)给“无监督图像到图像翻译”起了个名字:UNIT。

论文中提到,从概率模型的角度来分析图像到图像的翻译问题,会发现其中的关键挑战是学习不同领域图像的联合分布。

共享潜在空间假设

为了推断联合分布,Ming-Yu Liu等使用了“共享潜在空间假设”,假设不同领域的一对对应图像(x1、x2)可以映射到共享潜在空间(z),UNIT框架就建立在这个假设的基础之上。

上图中的E1和E2是两个编码函数,可以将图像映射到潜在编码,而G1和G2是两个生成函数,从潜在编码映射到图像。

UNIT框架结构

在UNIT框架中,研究人员用VAE-GAN对每张图像建模,其中抗性训练目标与权重共享约束相互作用,实施共享空间,以在两个域中生成相对应的图像,而VAE将翻译的图像与相应域中的输入图像关联起来。他们用卷积神经网络(CNN)重建了E1、E2和G1、G2,并通过权重共享限制来实现了共享潜在空间假设。

搞定这个框架之后,研究人员们把它用到了各类无监督图像到图像翻译任务上,比如说……

能完成街景在晴天雨天、白天黑夜、夏景雪景之间的转换,支持640×480的图片;也能在合成图像和真实照片之间进行转换:

还可以在各种狗狗品种之间转换,只要养一只狗,发朋友圈的时候就可以在哈士奇、德牧、柯基、萨摩耶、英国牧羊犬可以变来变去:

除了狗,还有猫,但不是你家的各类长毛短毛主子,而是在家猫、老虎、狮子、美洲狮、美洲虎、猎豹之间互相转换:

当然,最常见的人脸变换这个模型也能搞定,可以生成出金发、微笑、山羊胡、戴眼镜等等特征:

要想说自己的模型好,当然还得和别人的作品比较一下。

几位研究员用街景门牌号数据集SVHN、MNIST和USPS数据集之间的变换测试了模型性能,和SA、DANN、DTN、CoGAN等模型进行了比较。

UNIT框架在SVHN→MNIST任务上的准确率达到0.9053%,远高于同类模型。

Paper+Code

如果你对这篇论文感兴趣,可以直接阅读原文。Paper地址:https://arxiv.org/abs/1703.00848

另外,Nvidia研究团队还放出了这项研究的代码。这是一个无监督图到图翻译的Coupled GAN算法PyTorch实现。

GitHub地址:https://github.com/mingyuliutw/UNIT

更多这个项目的图像变换结果,可以在以下地址查看。

https://photos.app.goo.gl/5x7oIifLh2BVJemb2

我们还挑了几段视频,直接贴在这里。比方冬天变夏天:

还有小猫和兽王互相变身:

研究团队

Ming-Yu Liu(刘洺堉)

刘洺堉是Nvidia Research的研究员,专注于计算机视觉和机器学习方向。此前先后供职于英特尔和三菱。刘洺堉2003年在台湾交通大学获得学士学位,2012年在马里兰大学帕克分校获得博士学位。

刘洺堉个人主页的信息显示,今年他已经发布了9篇论文,除了上面这篇中NIPS(Spotlight)之外,他还有一篇论文中了IJCAI,有两篇中了CVPR(包括一篇Oral):

  • Tactics of Adversarial Attack on Deep Reinforcement Learning Agents Yen-Chen Lin, Zhang-Wei Hong, Yuan-Hong Liao, Meng-Li Shih, Ming-Yu Liu, Min Sun International Joint Conference on Artificial Intelligence (IJCAI), 2017 Melbourne, Australia Paper:https://arxiv.org/abs/1703.06748 Project:http://yclin.me/adversarial_attack_RL
  • Deep 360 Pilot: Learning a Deep Agent for Piloting through 360 Sports Videos Hou-Ning Hu, Yen-Chen Lin, Ming-Yu Liu, Hsien-Tzu Cheng, Stanley Chang, Min Sun Conference on Computer Vision and Pattern Recognition (CVPR) Oral, 2017, Honolulu, Hawaii Paper:https://arxiv.org/abs/1705.01759
  • CASENet: Deep Category-Aware Semantic Edge Detection Zhiding Yu, Chen Feng, Ming-Yu Liu, Srikumar Ramalingam Conference on Computer Vision and Pattern Recognition (CVPR), 2017, Honolulu, Hawaii Paper:https://arxiv.org/abs/1705.09759

Thomas Breuel

Thomas Breuel是Nvidia的杰出研究科学家(Distinguished Research Scientist)。去年10月加入Nvidia之前,他在Google担任研究科学家的工作。他还长期在德国凯泽斯劳腾大学任教,以及供职于施乐、IBM等公司。

Thomas Breuel本硕毕业于哈佛大学,1992年在麻省理工获得博士学位。来自Google Scholar的信息显示,Thomas Breuel今年除了这篇论文,还有一份专利申请获批。

Jan Kautz

Jan Kautz是Nvidia视觉计算和机器学习研究的高级总监,领导整个视觉计算研发小组。此外他还一直担任伦敦大学学院的教职。

他本科毕业于德国埃尔朗根-纽伦堡大学,随后在滑铁卢大学获得硕士学位,2003年Jan Kautz在德国马克思·普朗克计算机科学研究所获得博士学位。

今年以来,Jan Kautz还发布了十几篇论文,其中包括:

  • Learning Affinity via Spatial Propagation Networks S. Liu, S. De Mello, J. Gu, M.-S. Yang, J. Kautz Neural Information Processing Systems (NIPS) Paper:https://arxiv.org/abs/1710.01020
  • Intrinsic3D: High-Quality 3D Reconstruction by Joint Appearance and Geometry Optimization with Spatially-Varying Lighting R. Maier, K. Kim, D. Cremers, J. Kautz, M. Niessner IEEE International Conference on Computer Vision (ICCV) Paper:https://arxiv.org/abs/1708.01670
  • A Lightweight Approach for On-The-Fly Reflectance Estimation K. Kim, J. Gu, S. Tyree, P. Molchanov, M. Niessner, J. Kautz IEEE International Conference on Computer Vision (ICCV,Oral) Paper:https://arxiv.org/abs/1705.07162
  • Mixed-primary Factorization for Dual-frame Computational Displays F.-C. Huang, D. Pajak, J. Kim, J. Kautz, D. Luebke ACM Transactions on Graphics (Proceedings SIGGRAPH 2017) Paper:http://research.nvidia.com/publication/2017-06_Mixed-primary-Factorization-for
  • Dynamic Facial Analysis: From Bayesian Filtering to Recurrent Neural Network J. Gu, S. De Mello, X. Yang, J. Kautz IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Paper:http://research.nvidia.com/publication/dynamic-facial-analysis-bayesian-filtering-recurrent-neural-networks
  • GA3C: GPU-based A3C for Deep Reinforcement Learning M. Babaeizadeh, I. Frosio, S. Tyree, J. Clemons, J. Kautz International Conference on Learning Representations(ICLR) Paper:https://arxiv.org/abs/1611.06256 Code:https://github.com/NVlabs/GA3C
  • Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning P. Molchanov, S. Tyree, T. Aila, T. Karras, J. Kautz International Conference on Learning Representations(ICLR) Paper:https://arxiv.org/abs/1611.06440

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-10-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【虫二】的人工智能

艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些...

398110
来自专栏机器学习算法与Python学习

蒙特卡洛方法入门

蒙特卡洛方法入门 引言 蒙特卡罗方法于20世纪40年代美国在第二次世界大战中研制原子弹的“曼哈顿计划”计划的成员S.M.乌拉姆和J.冯·诺伊曼首先提出。数学家冯...

427110
来自专栏ATYUN订阅号

【技术】通过梯度下降逆向工程获取食品中不同成分的含量

这是一个外国人突发奇想(xiande danteng),用技术去了解包装食品各种成分含量的记录文章,文末附代码链接。 为了学习新的东西,我产生了一些奇怪的想法并...

29780
来自专栏新智元

【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告(PPT)

【新智元导读】 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前“深度学习”部分的报告已经全部结束。 本年度作报告的学术和行...

36850
来自专栏AI2ML人工智能to机器学习

深度学习名校课程大全

在吴恩达的最新《深度学习》课程里面, 鼻祖辛顿(参考“攒说 Geoff Hinton”)反复强调这是一场革命,或许不如第二次工业革命的影响力, 但是类似规模还是...

12530
来自专栏cloudskyme

一文搞懂HMM(隐马尔可夫模型)

什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,...

44790
来自专栏大数据文摘

学界丨先睹为快:神经网络顶会ICLR 2018论文接受结果速览

26450
来自专栏机器学习算法与Python学习

机器学习正在成为程序员的必备能力

13240
来自专栏专知

【干货荟萃】机器学习&深度学习知识资料大全集(二)(论文/教程/代码/书籍/数据/课程等)

【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍、文章、数据等等。是学习机器学习和深度学...

504120
来自专栏企鹅号快讯

数字电影技术术语普及

1 1K/2K/4K 在数字技术领域,通常采用二进制运算,而且用构成图像的像素数来描述数字图像的大小。由于构成数字图像的像素数量巨大,通常以K来表示210即10...

24850

扫码关注云+社区

领取腾讯云代金券