前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪

苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪

作者头像
新智元
发布2018-03-23 10:35:09
6450
发布2018-03-23 10:35:09
举报
文章被收录于专栏:新智元新智元新智元

【新智元导读】 苹果刚刚推出一个名为 Apple Machine Learning Journal 的新研究博客,第一篇文章介绍了他们的CVPR论文,提出一种改进合成图像的方法,使合成的图像看起来更逼真。研究结果表明,使用这些经过精细化的合成图像训练模型可以在多个机器学习任务上显著提高准确性。

苹果刚刚推出一个专注于机器学习研究论文的博客,并分享了苹果的最新研究发现。该博客名为“苹果机器学习期刊”(Apple Machine Learning Journal),发表的第一篇文章是关于如何将合成的图像变得更逼真,以用于训练神经网络。

这个举动很有趣,因为苹果通常不会公开谈论他们的研究项目。据techcrunch报道,苹果已经推出一些重要的开源项目,例如 Safari 背后的浏览器引擎 WebKit,以及 Apple 的最新编程语言 Swift,用于 iOS,watchOS 和 tvOS。但是,做一个专门介绍他们的人工智能研究论文的博客对苹果来说还是很新鲜的。

说它有趣,原因有几个。首先,这篇论文已经在 arXiv 上发表。今天发在博客上的版本讲的是同一件事,但使用的语言简单一些。而且,苹果还增加了一些 GIF 动图来说明。

根据这篇文章,苹果需要训练神经网络来检测照片上的人脸和其他物体。但苹果的方法不是制造拥有数百万计图像样本的巨大的数据集来训练神经网络,而是创建由计算机生成的人物的合成图像,并应用一个过滤器使这些合成图像更逼真。这比一般的方法训练神经网络的成本更低,而且速度更快。

其次,在该博客中,苹果鼓励读者给他们发邮件。页脚上还有一个大大的指向苹果招聘页面的链接。显然,苹果希望利用这个平台找到有能力的工程师。

第三,很多人批评苹果在机器学习方面的表现,认为谷歌、亚马逊这些公司更有能力。当然,苹果一直没什么动静也是事实。谷歌的Assistant和亚马逊的Alexa这样的消费产品也比苹果的Siri表现得好得多。

但在分析移动设备上的照片库,iPhone 7 Plus 的景深效果,以及苹果的 ARkit 增强现实,苹果也做了不错的工作。显然,在人工智能和机器学习方面,苹果想改变大众对它的看法。

下面让我们看看苹果机器学习期刊的第一篇文章说了些什么。

改善合成图像的真实感

当前,神经网络最成功的例子是用监督学习的方式训练的。但是,为了实现高准确率,训练集需要大量、多样性的样本,而且需要准确的注释,这是非常昂贵的。代替标注大量数据的方法是使用模拟器合成的图像。这种方法的成本较低,因为不需要对数据进行注释,但合成的图像可能不够真实,导致在实际测试图像上泛化不好。为了解决这个问题,苹果提出一种改进合成图像的方法,使合成的图像看起来更逼真。研究结果表明,使用这些经过精细化的合成图像训练模型可以在多个机器学习任务上显著提高准确性。

图1:任务是学习一个模型,该模型使用未标注的真实数据,利用模拟器改善合成的图像的真实性,同时保留注释信息。

“提高真实性”的目标是使图像尽可能逼真,以提高测试时的精度。这意味着我们需要保留训练机器学习模型的注释信息。例如,图1中眼睛注视的方向应该保留,并且不要产生任何伪影(artifacts),否则机器学习可能会过度拟合它们。我们学习一个深度神经网络,称之为“精细化网络”(refiner network),该网络处理合成的图像以改善图像的真实性。

图2:精细化网络R最大限度地减少了局部对抗损失和“自规范化”(self-regularization)项的组合。对抗损失“欺骗”判别器网络,将图像分类为“真实的”和“精细化的”。自规范化项最小化合成图像和精细化图像之间的差异。精细化网络和判别器网络交替更新。

图3:局部对抗损失的图示。判别器网络输出一个 w × h 的概率图。对抗损失函数是局部 patch 的交叉熵损失之和。

图4:使用图像历史来改善判别器的直观图示。

图5:判别器D历史中的mini-batch的图示。每个mini-batch都包含来自生成器的当前迭代图像,以及来自缓冲区的先前的假图像。

图6:随着训练进行,refiner网络的输出。从模糊的图像开始,网络学习模拟真实图像中的细节。

图7:随着训练进行,生成器和判别器的损失值

图8:特征空间中的自正规化损失示例。

图9:合成图像和真实图像中的瞳孔中心间距离的散点图

图10:使用我们提出的方法得到精细化的眼睛图像

图11:使用合成的图像和精细化的图像进行眼睛注视估计的训练比较。对实际测试图像进行评估。

图12:对MPIIGaze数据集进行注视估计的不同方法的比较。前两种方法在参考文献[2]和[3]中有描述。

有关本文中描述的工作的更多细节,请参阅我们的CVPR论文“通过对抗训练从模拟和无监督的图像学习”( Learning from Simulated and Unsupervised Images through Adversarial Training),论文地址:https://arxiv.org/abs/1612.07828

更多研究细节和参考文献请查看原文:https://machinelearning.apple.com/2017/07/07/GAN.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档