2017年最后一篇推送，仍然与技术有关盘点深度学习论文年度之“最”

企鹅号小编

发布于 2018-01-17 10:49:27

6730

发布于 2018-01-17 10:49:27

文章被收录于专栏：人工智能

今年有很多的学术论文发表，以下是小编觉得能够深刻影响到自己的几篇，为大家推荐。对于每一篇文章，都阐述了论文的“目标”，简要总结了相关工作，并解释了推荐的原因。

最酷的视觉效果:在未成对的图像和循环的图像之间进行转换

·标题:未配对的图像到图像的转换使用循环一致的敌对网络

·作者:Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros (来自伯里克利AI研究院)

·目标:学会在不同的图像集之间进行转换。

在这里没有描述作者具体所做的事情，先看一些令人难以置信的结果：

这些令人惊叹的图片来自于CycleGAN的论文，其中作者学习了一对翻译网络，能够在未成对的图像之间进行翻译。

作者以来自不同领域的两组图像开始，学习两个翻译网络：一个翻译马图像为斑马图像，另一个翻译斑马图像为马图像。每个翻译器都执行一种样式转换，不是针对单个图像的样式，而是发现一组图像的聚合样式。

翻译网络被训练成一对生成敌对网络，每个网络都试图欺骗一个鉴别者，让他们相信“翻译”出来的图像是真实的。使用CycleGAN方法为我们最近的一篇论文生成逼真的综合训练数据，结果令人印象深刻：GeneSIS-RT转换结果引入了一个额外的“循环一致性损失”，鼓励图像在通过翻译网络后保持不变（即前进和后退）。

本文的视觉效果令人惊叹，强烈建议参阅GitHub项目页面以获取更多示例。对这篇论文感兴趣的原因是因为它不像许多以前的方法，它学习在不成对的图像集之间进行翻译，为匹配图像对可能不存在的应用程序打开大门，或者可能很难获得。此外，该代码非常易于使用和实验，证明了方法的稳健性和实现的质量。

以下是这篇论文的相关截图：

最优雅：使用WASSERSTEIN DISTANCE更好的神经网络训练

·标题：Wasserstein GAN

·作者：Martin Arjovsky，Soumith Chintala，LéonBottou（来自Courant Institute of Mathematical Sciences和Facebook AI Research）

·目标：使用更好的目标函数来更稳定地训练GAN。

本文提出了使用稍微不同的目标函数训练生成敌对网络。新提出的目标函数比标准GAN训练要稳定得多，因为它避免了在训练过程中渐变消失：

使用这个修改的目标，作者还避免了一个称为模式崩溃的问题，其中标准的GAN只从可能输出的一个子集产生样本。事实上，作者声称：“在没有实验的情况下，我们看到了WGAN算法模式崩溃的证据。”例如，如果GAN正在训练产生手写数字4和6，则GAN可能只产生4个，并且在训练期间无法逃离该局部最小值。通过消除训练目标中消失的梯度，所谓的Wasserstein GAN设法避免这个问题。

即使我们一直在朝着更好的神经网络方向前进，但值得记住的是，仍然有机会通过简单的见解来产生巨大的变化。这篇论文是非常独立的：作者（1）激发了一个简单的想法（2）从数学上显示为什么它应该改进当前的艺术状态（3）有一个令人印象深刻的结果部分，展示其有效性。此外，作者提出的改变在几乎在所有流行的深度学习框架中都很容易实现，使得采用所提议的变更是切实可行的。

以下是这篇论文的相关截图：

最有用的：未经监督的模拟训练数据使用GANS进行优化

·标题：通过对抗训练学习模拟和非监督的图像

·作者：Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，Josh Susskind，Wenda Wang，Russ Webb（苹果公司）

·目标：使用真实世界的图像，使模拟训练数据更有用于真实世界的应用程序。

收集真实世界的数据可能比较困难且耗时。因此，许多研究人员经常使用仿真工具。像OpenAI健身房这样的工具，对训练数据渴望的深度强化学习代理特别有用。它们能够产生几乎无限量的标记的训练数据。然而，大多数模拟数据对于训练在真实数据上操作的深度学习系统是不够现实的。

为了克服这个限制，本文使用了一个生成敌对网络（GAN）来使用未标记的真实世界图像来改进标记的模拟图像。他们训练一个“精细化网络”来欺骗一个辨别分类器，该分类器被训练成用来区分精致的模拟图像和真实图像。由于细化网络和分类器的协同训练，精致的模拟图像开始显得非常逼真：

来自Shrivastava等人的这个图显示了他们的“精细化网络”背后的基本思想，其中标记的模拟更加逼真，通过GAN来使用未标记的现实世界的图像。在许多情况下，精致的合成图像与真实世界的图像是无法区分的。

对这篇论文感兴趣的原因是因为它提出了第一个弥合模拟和现实世界数据差距的实用方法。特别是在机器人技术方面，提出了一个有趣的挑战：为领域特定的应用程序收集和标记数据需要资源，而这些资源学术界可能无法获得，但大部分的研究工作仍得进行。这里的关键问题是该算法是无监督的，这意味着用户不需要手动标签真实的数据。

对于深度学习应用来说，数据为王，然而大多数学术实验室都没有资源来生成快速处理新研究领域所需的大量数据：如果有一个公共数据集不存在这个问题，你可以自己收集和标记数据。本文的外延信息是，只要你有一个你正在试图解决的问题的模拟器，你应该能够生成你所需要的训练数据。

以下是论文相关的截图：

最令人印象深刻的是：GOOGLE的围棋程序从头到尾都在学习

·标题：掌握没有人类知识的围棋游戏

·作者：David Silver，Julian Schrittwieser，Karen Simonyan，Ioannis Antonoglou，Aja Huang，Arthur Guez，Thomas Hubert，Lucas Baker，Matthew Lai，Adrian Bolton，Yutian Chen，Timothy Lillicrap，Fan Hui，Laurent Sifre，George van den Driessche，Thore Graepel＆Demis Hassabis

·目标：学习玩没有任何人的例子的围棋游戏

如果不承认谷歌的DeepMind在过去一年的令人印象深刻的成就，尤其是它与AlphaGo的关系，那么，2017的榜单将会是不完整的。这里有一篇非常出色的论文，描述了他们如何构建系统。但是，这个系统是以专家级的人性化游戏为出发点的。

最近的AlphaGo Zero论文避免了结合任何人类的知识或游戏玩法：它只通过“自我玩耍”进行训练。这是通过改进的强化学习训练程序来实现的，其中当游戏的前向模拟发生时更新策略。用于指导搜索的神经网络在游戏过程中得到改善，使训练速度更快。 AlphaGo Zero甚至超过了AlphaGo Lee的表现，仅在大约40个小时的游戏时间后，它在2016年推翻了Lee Sedol。

尽管对这篇论文的兴趣主要集中在工程学层面，但AlphaGo采用的混合经典和深度学习方法也让我倍受鼓舞，在这种方法中，蒙特卡洛树搜索的增加使得系统性能优于单片神经网络。作为研究机器人的一员，我被这种组合方法所鼓舞：使用经典算法作为决策的主干，并使用机器学习来提高性能或克服计算限制。这篇论文和2016 的AlphaGo论文也都很棒，充满了有趣的技术细节和见解。如果没有其他原因，这些文件值得详细阅读。

最深思熟虑：深度图像

·标题：在深度图像之前

·作者：Dmitry Ulyanov，Andrea Vedaldi和Victor Lempitsky（来自Skolkovo科学与技术学院和牛津大学）

·目标：了解我们的神经网络模型在我们的实验中所传递的信息。

这篇论文的作者并没有用大量的数据来训练一个深度神经网络，而是像现在这样相当标准的，而是想要探索如何使用神经网络本身作为一个先验，可以帮助我们解决一些流行的图像处理任务。他们从一个未经训练的神经网络开始，用作者的话来说“不是在图像空间中搜索答案，而是在神经网络的参数空间中搜索它”，并且避免从属于大型数据集中的神经网络。

Deep Image Prior文章改编的这个图像显示了应用他们的技术去除JPEG压缩伪影的效果。随着算法迭代，它最终会过度适应输入，但是会首先发现没有任何伪影的更自然的图像;网络的结构是这样的，比较容易找到一个自然的图像而不是腐败的。为了更多的例子，需要查看论文的项目页面。

深度图像优先：De-JPEG迭代

这个结果令人着迷，神经网络的结构对我们的数据有什么意义？我们怎样才能更好地理解这一点？我们如何利用这种方法来建立更好的网络模型？我也很感兴趣看看性能如何随着神经网络初始化的功能而变化。我们可以用这种方法来选择更合理的初始化技术吗？当然，作为一个社区，我们隐含地理解了我们的网络结构对我们的数据所施加的一些限制：如果“斑马”图像全部颠倒，CycleGAN方法不可能有效地发挥作用。然而，它提出了一些关于我们的神经网络模型的深刻的问题，并为来年提供了一些有趣的方向。

以下是论文相关截图：