Facebook渐变网络、多尺度DenseNet、最新街景数据集、集成学习新方法

01

Facebook渐变生成式网络

本文为Facebook发表在NIPS2017上的文章,本文介绍了一种新的编码器 - 解码器架构,通过直接解析图像的显著信息和潜在空间中的属性值来重构图像。因此,经过训练之后,该模型可以通过改变属性值来生成不同的输入图像的实际版本。通过使用连续的属性值,我们可以选择在生成的图像中哪些特定属性是多少可感知的。该属性可以允许用户使用滑动旋钮修改图像的应用程序,例如混音器控制台的开关,从而改变肖像的面部表情或者某些对象的颜色。在现有的技术中,通常采用在训练阶段,改变像素空间中的属性值来训练对抗网络,本文的方法更为简单,并且可以良好的扩展到多个属性。实验表明,该模型可以显著改变属性的感知价值,同时保留图像的自然性。

文章:

Fader Networks: Manipulating Images by Sliding Attributes

Arxiv:https://arxiv.org/pdf/1706.00409.pdf

Github:https://github.com/facebookresearch/FaderNetworks

02

PixelSNAIL自回归生成模型

近年来,自回归生成模型在涉及高维数据(如图像或音频)的密度估计任务中多次获得最佳结果。自回归生成模型将密度估计作为序列建模任务,采用RNN模型对已知前面元素时的下一个元素的条件分布进行建模。

在这个范例下,性能的瓶颈在于RNN对于远距离依赖的模拟程度,其中,最成功的方法采用因果卷积,实现比传统RNN更好地对序列的早期数据的访问。此外,受到最近的元强化学习的启发,处理远程依赖关系也是必不可少的,本文引入的新的生成模型架构,结合了因果卷积和自我关注。作者采CIFAR-10和ImageNet数据集进行了测试。

文章:

PixelSNAIL: An Improved Autoregressive Generative Model

Arxiv:

https://arxiv.org/abs/1712.09763

Github:

https://github.com/neocxi/pixelsnail-public

03

DenseNet多尺度升级版

该论文为DenseNet原作者黄高的最新力作,也获得了ICLR2018最佳论文。在该论文中,作者探究了在测试阶段用有限的计算资源实现图像分类任务。实验中作者采用了两个设定:1)即时分类。对于某个测试样本,网络的预测输出会逐渐更新,以保证随时输出预测结果;2)批预算分类,其中计算资源是有限的,且这些资源对于输入图片可以进行不均衡处理,对「简单的」和「困难的」图片分开对待。

与大多数先前的工作相比(如流行的 Viola 和 Jones 算法),本文方法基于卷积神经网络。我们训练多个具有不同资源需求的分类器,并在测试期间自适应地应用这些分类器。为了最大化这些分类器计算资源的使用效率,我们将它们整合进一个深度卷积神经网络中,使用密集连接将它们联通。为了更快实现高质量的分类,我们使用了二维多尺度网络架构,在网络中同时保持了粗糙与精细的特征。在三个图像分类任务上的实验证明,本文框架可以大大提升上述两种设置下的目前的业内最佳水平。

论文:

Multi-Scale Dense Networks for Resource Efficient Image Classification

Arxiv:https://arxiv.org/abs/1703.09844

Github:https://github.com/gaohuang/MSDNet

环境:Torch

04

最新开源街景数据集

Mapillary Vistas Dataset(简称MVD)是最新开源的、大规模街景图像数据集,包含25,000张高分辨率图像,66个对象类别注释,并附加了37个类别的特定实例标签。通过使用多边形来划分单个对象,注释以细致且精确的风格进行。该数据集的精细注释比Cityscapes数据集多5倍,并包含来自世界各地的图像,在各种天气、季节和光线条件下拍摄。图像来自不同的成像设备(手机,平板电脑,运动相机,专业捕捉平台)和不同经验的摄影师。因此,该数据集具有多样性、细节丰富性、地理范围完备性。针对该数据集的基准任务,作者定义了语义图像分割、实例分割等。

论文:

The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes

链接:https://research.mapillary.com/publications/ICCV17a.html

Github: https://github.com/mapillary/mapillary_vistas

05

集成学习:训一得多

通过训练多个模型并将其预测输出值进行平均,往往能获得比单个模型更高的精度和鲁棒性。然而,训练多个神经模型通常十分耗费资源。本文作者在无需额外的计算负担的前提下,实现了得到多个模型的目的。本文对单个网络进行训练,在迭代过程中使它收敛到不同的局部最优点,并且保存每个最优点对应的网络权值。为了帮助快速收敛,作者参考了最近周期学习率的研究进展。

结果表明,文中采用的Snapshot Ensembling的方法,虽然简单粗暴但是很有效率。一系列的实验均表明,本文训练得到的模型与其他的网络框架不同的集成模型效果可比拟。此外,无需额外的训练量,本文可实现比前沿技术更低的误差率,在CIFAR-10和CIFAR-100上作者使用的DenseNet Snapshot Ensembling分别可以获得3.4%和17.4%的误差。

论文:

Snapshot Ensembles: Train 1, get M for free

Arxiv:https://arxiv.org/abs/1704.00109

Github(Torch):https://github.com/gaohuang/SnapshotEnsemble

Github(Keras):https://github.com/titu1994/Snapshot-Ensembles

Openreview:https://openreview.net/forum?id=BJYwwY9ll

以上就是全部内容啦~关注“习悦智能”,获取更多行业新鲜资讯~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180119G0FA3700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券