发现 | 基于深度学习的自动上色程序,以及其实际应用

来自伯克利大学和麻省理工学院的三名研究者Richard Zhang、Phillip Isola、Alexei A. Efros日前给出了深度学习在另一个特定领域的研究进展,开发了一套可以通过深度学习自动学会帮黑白图片上色的技术。从给出的示例来看,这项技术的准确性还是比较高的。说到这些技术的应用,让许多承载着回忆的老照片焕发新生是它能做的极好的贡献之一。

值得注意的是,这个算法是在算法应用平台Algorithmia上的,雷锋网之前报道过这个平台,它的主要作用就是让算法的开发者将他们开发出来的算法托管在平台上,而APP的开发者等需要算法的人就可以很方便的通过几条简单的指令就调用上面存储着的算法,这样就能达到一个研究成果最大化利用的目的。

算法的原理

研究小组表示,他们给算法制定的目标——为随意给出的黑白照片上色,很明显条件过于宽泛,因此之前的类似算法要么需要用户很多的干涉,要么生成的照片的颜色饱和度往往相当低。而他们通过将算法设定为一个分类任务并且在训练时使用重分类方法来增加了图像颜色的多样性。他们为算法设计了一个类似于图灵测试的“颜色图灵测试”,用来评估算法的效果。让受试者区分摄制了同样物体的照片,哪张是真的哪张是程序生成颜色的结果。结果他们的方法成功骗过了20%的人,这个结果要显著高于之前的方法。

上图是这个算法的网络结构,每个卷积层(conv layer)都代表着由2到3个重复的卷积和整流线性单元(ReLU)层组成的区块,最后是一个BatchNorm层。整个网络没有池化层。分辨率的变化是由卷积块之间的空间缩减取样或不取样实现的。

研究团队在他们的论文中介绍,在图像本身的信息之外,该方法的灵感倒主要来源于它的语义学特征和其中物体的表面提供的线索,在实例中通常意味着图像标签(label)所含有的信息:如草一般都是绿的,天一般都是蓝的等。虽然这个规律并不一定是通用的,但是事实上,要让一幅图变成漂亮的彩色,并不意味着它的着色一定要跟现实中的颜色一模一样,很多时候只要颜色的相对关系看起来合理,就足够骗过人类的眼睛了。

与传统的实现方法不同,他们并不是利用着色问题的损失定制来实现算法的,之前提到过,其实颜色的预测结果有时并不需要同现实结果一模一样,比如一件衬衫,表现出很多种颜色看起来其实都是合理的。他们的方法是在算法中对每一个像素点都预测了颜色可能的分布情况。并且在训练中给不常出现的颜色更多的权重,以增加最终颜色的多样性。最终以一种分布退火的方式得到最后的颜色分布函数。得到的结果同以前的结果相比看起来会更加真实。

研究团队展示了他们的算法在1000组来自ImageNet的图像上的实验效果,其中大部分都得到了比较好的效果。

实现及结果展示

研究团队在Github上提供了他们算法的源代码(目前还是Demo版):https://github.com/richzhang/colorization

由于其算法发在了Algorithmia上,因此想要使用他们的研究结论,只需用简单的几句指令就可以调用算法实现图片的转换。

或者用这样的格式

小组展示了许多算法成功的案例。如下图

不过还需要注意的一点是,该团队自己也表示,这个算法仍处在试验阶段,它在运算有些图片的时候表现得会很好,但有的时候又会表现得很差,(不过在这一点上其他的类似算法也一样)。因为目前这个算法主要使用ImageNet的图像做训练数据,因此在处理与其训练数据类似的图像的时候会表现得比较好。但该团队也给出了一些失败的例子,不过他们在示例中同时加入了其他算法的表现,可以看出,在这些图片上,其他算法几乎也无法给出比他们算法更好的结果:

最右侧是现实情况,中间的三个是不同算法的横向比较,其中标记为“Ours”的就是该团队的算法。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

干货 | “回归分析”真的算是“机器学习”吗?

是什么将“统计”从“机器学习”中分离出来的?个被讨论过无数次的问题。关于这个问题的文章有很多,人们对其好坏莫衷一是。但是我发现,在“统计”和“机器学习”的争论上...

3007
来自专栏机器之心

深度 | 迁移学习全面概述:从基本概念到相关研究

选自sebastianruder.com 作者:Sebastian Ruder 机器之心编译 参与:马亚雄、吴攀、李亚洲 将在一个场景中学习到的知识迁移到另一个...

2717
来自专栏机器之心

观点 | 我们该如何学习机器学习中的数学

数学达到什么水平才可以开始机器学习?人们并不清楚,尤其是那些在校期间没有研究过数学或统计学的人。

471
来自专栏CVer

[计算机视觉论文速递] 2018-03-18

通知:这篇推文有10篇论文速递信息,涉及人脸表情识别、人脸替换、3D人脸重建、Re-ID、目标检测和目标跟踪等方向 Note:最近一直有童鞋私聊问我,有没有相关...

42412
来自专栏机器之心

业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心...

33811
来自专栏大数据文摘

学界 | 不!机器学习才不只是统计学的美化!

题图上这张在社交媒体上疯狂传播的恶搞漫画博得了不少转发,这似乎暗示着,对机器学习的炒作热度开始消退。然而,机器学习真的只是被美化的统计学吗?

481
来自专栏新智元

【谷歌工程师机器学习干货总结】从表现力、可训练性和泛化三方面看2017年进展

来源:blog.evjang.com 作者:Eric Jiang 编译:费欣欣 【新智元导读】本文是谷歌大脑工程师Eric Jiang的博文,结合当前监督、无监...

34317
来自专栏AI研习社

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

深度学习:为多项人工智能技术服务的成套技术,近年来伴随着研究的不断深入和GPU能力的不断拓展,它也变得更加强大,SDC就是能够利用这些技术的系统。

1062
来自专栏AI科技评论

干货 | 中科院计算所王晋东:迁移学习的发展和现状 | 分享总结

AI科技评论按:伴随着最近几年的机器学习热潮,迁移学习 (Transfer Learning)也成为目前最炙手可热的研究方向。 迁移学习强调通过不同领域之间的知...

3447
来自专栏大数据挖掘DT机器学习

欺诈预测机器学习模型设计:准确率和召回率

Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。irbnb信任和安全小组通过构建机器学习模型...

2694

扫描关注云+社区