8张图看苹果公开的第一篇 AI 论文

新智元

发布于 2018-03-26 17:01:20

1.2K0

文章被收录于专栏：新智元新智元

【新智元导读】 苹果终于发表了AI方面的第一篇论文。12月22日，苹果题为《Learning from Simulated and Unsupervised Images through Adversarial Training》的论文在Arxiv上发表，论文介绍了使用模拟+无监督的方法，在对抗训练中进行学习的技术。本文带来HN上诸位专家的评论，他们的基本评价是：这可是苹果发表的论文！很高兴他们开始对研究社区有所回报了。

本月早些时候，苹果这家向来保守的公司告诉人工智能研究社区，他们快要发布自己的AI论文。还不到一个月，它已经兑现了诺言。

苹果于12月22发表了它第一篇 AI 论文（论文于11月15提交）。论文描述了一种技术，使用计算机生成的图片而不是现实世界的图片来提高训练算法识别图像的能力。

在机器学习研究中，用计算机生成的图片（例如电子游戏中的）训练神经网络比现实世界的图片更高效。因为生成图片数据都是有标签和注释的，而真实图片的数据需要耗费人力标注计算机所看的东西，告诉它这是一棵树，一只狗，一辆自行车。但是生成图片的方法也有问题，因为这让算法所学到的东西并不总是能无缝转移到真实场景。生成图片的数据“常常不那么真实，导致神经网络只学习生成图片的细节，却无法在真实图片上很好的迁移。”苹果的论文如是说。

论文推荐了苹果研究员所谓的模拟+无监督学习（Simulated+Unsupervised learning），当仿真图片的现实问题出现的时候用来提高生成图片数据的训练效果。苹果研究员用一种调整过的新的机器学习技术——对抗生成网络 GAN（Generative Adversarial Networks），这一技术通过两种神经网络相互对抗用于生成看上去现实的图片。

斯坦福专家 Rkaplan

苹果的论文在技术社区引起热议，Rkaplan（斯坦福专家）指出这篇论文最重要的几个意义在于：

1. 有标记数据非常昂贵。历史上，通过合成的数据学习的尝试已经失败，因为ConvNets在检测合成数据里的非常小的虚影方面非常厉害，而且在训练期间使用这些虚影进行分类。在使用真实数据测试时，由于真实数据中没有这些虚影，因此模型失败。苹果提出的这项技术，只通过合成数据的标记来训练，然后用真实数据进行测试，而且结果比目前最先进的技术还好（尽管使用的数据集是非常小的 Eye Gaze数据集），显然很重要。

2. 他们展现了一个有用的新主意提高GAN的训练，用以前的“假”图片，而不仅仅是最新生成的假图片。问任何训练过GAN的人：训练效果真的很不稳定，每个神经网络不仅仅想战胜对手。他们通过修改很多以前的假输出，很好的提升了生成器鲁棒性。这让我想起Deepmind 在强化学习上的经验重现。

这可是苹果发表的论文！很高兴他们开始对研究社区有所回报了。

Brandonb （行业专家，曾在Google研究语音）发表评论：

这是苹果第一次发表AI研究论文。Russ Salakhutdinov 加入之后，他承诺苹果会开始在大会在发表AI论文。他们真的做的很棒。

我也做AI（用HealthKit 数据，不是苹果的），我浏览了这篇论文，尽管它不是很突破性的。但是它是一个很好的信号。他们提出的想法是GAN的很好调整和运用。GAN在2014年还是1990年出现（每个人有不一样的答案），但是你可能在NIPS看到超多类似的论文。

也就是说，苹果用最新的技术，提交到同行评议大会，这些大会公开发表知名的研究结果，没有一个不是要好几年的。这就是真正的研究。

对他们而言是一份荣耀。我真的很好奇他们在核心产品比如 Health 和 Siri 方面会发表什么论文—他们可能对产品研究产生巨大的共享。

Kalid（著名网站betterexplained创始人）

我发现论文写得很不错。它遵循了吴恩达深度学习课程的“圣约”，上完他的课可以把论文写得更艺术品似的（术语，公式，惯例）。

“视觉图灵测试”（visual Turing test）非常有意思（人类是否可以区分真实和仿真的图片）。这个样本规模（p-value，对于他们的问题）是相当小的（10个参与者，每个100张图片）。

我很好奇是否有志愿者（就像HealthKit）帮助自动化类型的评估。你可能需要Recaptcha-style服务表示你的仿真足够真实。

论文的第一作者是苹果研究员Ashish Shrivastava，从LinkedIn可以看到他是马里兰大学帕克学院（University of Maryland，College Park）计算机视觉的博士。论文其它合作者是包括苹果的Tomas Pfister，Oncel Tuzel，Wenda Wang，Russ Webb和Josh Susskind，他们联合创立了AI公司Emotient。这个公司年初被苹果收购，是做面部表情识别的。

苹果的第一篇AI论文标志着苹果的一大步。好多年来，人工智能研究社区批评苹果的保密。它的保密性甚至损害了对AI人才的招聘。更多地向社区开放，对苹果推进AI软件的进步和在技术领域的传播非常重要。AI软件在苹果运作中数据中心的、最新iPhone服务中变得特别关键。

8张图看苹果公开的第一篇 AI 论文

图1：模拟+无监督（S + U）学习。任务是学习一个模型，能够改进合成图像的真实性同时保留标注信息，合成图像来自使用未标记的真实数据的模拟器。

图2. SimGAN概览。我们使用一个refiner神经网络R来最小化局部对抗损失和一个“自正则化”项（selfregularization term）的组合，以改进模拟器的输出。这个对抗损失会欺骗判别器网络D，D用于区分图像是真实图像还是改进后的图像。自正则化项能够将合成图像和改进后的图像之间的差异最小化。该方法同时保留了标注信息（例如，眼睛凝视的方向），是得改进后的图像可以用于训练机器学习模型。refiner网络R和判别器网络D交替更新。