学界 | LeCun提出错误编码网络,可在不确定环境中执行时间预测

选自arXiv

机器之心编译

参与:乾树、刘晓坤

Yann LeCun 团队近日提出一种新型框架,错误编码网络 Error-Encoding Networks,可在不确定环境中执行时间预测。实验证明它能够持续生成多种预测,而不需要在隐空间或对抗训练中交替进行最小化,并直接避免了模式崩溃问题。

在时间序列中学习前向模型是人工智能的核心任务,此类模型常应用于无监督学习、规划和压缩。这项任务面临的一个主要挑战是如何处理多时间序列的多模式问题。当一个时间序列有多种有效的演化方向时,使用经典的 L1 或 L2 损失来训练模型会得到在各维度上取平均值或中值的预测结果,但这往往不是一个有效的预测。

近年来,生成对抗网络(Goodfellow et al.,2014)被提出,它是一个通用网络框架,其中预测问题被表示为预测函数和表示损失的可训练的鉴别器网络之间的极小极大博弈。通过使用可训练的损失函数,GAN 理论上可以处理多种输出模式,因为包含所有输出模式的生成器将欺骗鉴别器进而促成网络收敛。然而,单一模式的生成器也可以欺骗鉴别器并使网络收敛,而且这种模式崩溃现象已在实践中被广泛观察到。研究人员已经引入了一些变通方法来解决或减轻模式崩溃,如小批量鉴别,增加参数噪声(Salimans et al.,2016),通过展开的鉴别器(Metz et al。,2016)进行反向传播,以及使用多个 GAN 来覆盖不同的模式(Tolstikhin et al.,2017)。然而,其中很多技术可能带来额外的挑战,例如增加了实现的复杂性以及增加了计算成本。当输出高度依赖于上下文时,例如视频预测(Mathieu et al., 2015; Isola et al., 2016),模式崩溃问题在条件生成设置中变得更加明显。

在本篇论文中,我们介绍一种新的允许在时间序列数据中进行鲁棒的多模式条件预测的网络架构。它基于将未来状态分解为可从现状预测的确定性分量和由于未来模式不确定性的随机(或难预测)分量的简单直觉。通过训练一个确定性网络,我们可以以网络预测的形式获得这个因子分解,以及相对于真实状态的预测误差。这个错误可以被编码为一个低维的隐变量,它被传递到第二个网络,该网络被训练成通过学习这个附加信息来准确地校正确定性预测。我们称这个模型为错误编码网络(EEN)。一言以蔽之,该框架在每个时间步骤包含三个函数映射:(i)从当前状态到未来状态的映射,将未来状态分为确定性和非确定性分量;(ii)从未来状态的非确定性分量到低维隐向量的映射;(iii)从当前状态到以隐向量(编码了未来状态的模式信息)为条件的未来状态的映射。虽然训练过程涉及所有映射,但推理阶段只涉及(iii)。

两个网络都是使用监督学习目标进行端对端训练的,并且使用学习的参数化函数来计算隐变量,因而训练过程简单且快。我们将这种方法应用于来自游戏、机器人操作和模拟驾驶的视频数据集,并且表明该方法能够持续为未来的视频帧产生多模式预测。虽然我们在本文中着重介绍视频,但是这种方法本身是通用的,原则上可以应用于任何连续值的时间序列。

模型

许多自然过程都带有一定程度的不确定性。这种不确定性可能源自事物本身的随机过程,可能因为只观察到部分确定性过程,也可能是由于过程的复杂性大于前向模型的容量。处理不确定性的一个自然的方法是通过隐变量来解释目标特性,而这些特性仅靠已知的输入是无法解释的。

假设我们有一组连续的矢量值,输入 - 目标对(x_i,y_i),其中目标取决于输入和一些固有的不可预测的因素。例如,输入可以是一组连续的视频帧,目标可以是下一帧。经典的隐变量模型,如 k-均值或高斯混合,通过交替最小化关于隐变量和模型参数的损失来进行训练; 从概率论的角度讲,这是期望最大化算法(Dempster et al., 1977)。在神经网络模型 f_θ(x_i,z)的例子中,可以使用梯度下降来优化连续的隐变量,并且可以使用以下过程来训练模型:

算法1:使用交替最小化训练因变量模型

图 1:模型架构

实验

我们在不同领域的五种不同视频数据集(例如 Atari Breakout、Atari Seaquest 和 Flappy Bird)、机器人操纵(Agrawal et al., 2016)和模拟驾驶(Zhang&Cho,2016)上测试了我们的方法。它们具有明确的多模式结构,由于智能体的行为或其他随机因素,环境会发生变化,并且跨越多种视觉环境。对于每个数据集,我们训练了我们的模型以前 4 帧为条件来预测之后 1 或 4 帧。我们还训练了确定性基准模型和 GAN 来比较性能。相关代码见 https://github.com/mbhenaff/EEN。

图 4:机器人运动轨迹生成实验。左边图片是给定的,右边图片是预测的。

图 5:像素鸟帧预测。前四帧是给定的,后四帧是预测的。注意,最后一帧的管道高度略有不同,请放大图片获取细节信息。

图 6:像素鸟帧预测。前四帧是给定的,后四帧是预测的。注意,最后一帧中鸟的高度改变了,请放大图片获取细节信息。

图 7:多种模型的不同样本的最高峰值信噪比(Top PSNR)随样本数量的变化。

论文:Prediction Under Uncertainty with Error-Encoding Networks

论文链接:https://arxiv.org/abs/1711.04994

在本篇论文中,我们介绍一个新的框架,在存在不确定性的情况下执行时间预测。它基于一个简单的想法,即解构未来状态的组成部分,这些组成部分可以从固有的难以预测的部分中预测出来,并将不可预测的组成部分编码成一个低维的隐变量,并将其馈送到前向模型。我们的方法使用一个快速且易训练的监督训练目标。我们在多个数据集的视频预测上下文中对其进行评估,实验证明它能够持续生成多种预测,而不需要在隐空间或对抗训练中交替进行最小化。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解

论文名称:《Unified Perceptual Parsing for Scene Understanding》

1932
来自专栏机器之心

综述论文:当前深度神经网络模型压缩和加速方法速览

3307
来自专栏量子位

商汤及联合实验室入选论文重点解读 | ECCV 2018

9月8日-14日,备受瞩目的2018欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开, ECCV两年举办一次,与CVPR、ICCV共称为计算机视觉领域三...

1304
来自专栏数据派THU

一文详解聚类和降维(附实例、代码)

来源:机器之心 作者:Vishal Maini 本文长度为3500字,建议阅读6分钟 本文对无监督学习的聚类和降维算法进行介绍,其中包括 K 均值聚类、层次聚类...

3748
来自专栏数据科学与人工智能

【机器学习】机器学习实践中的7种常见错误

本文作者是 Codecademy 的分析主管 Cheng-TaoChu,其专长是数据挖掘和机器学习,之前在 Google、LinkedIn和Square就职。 ...

2727
来自专栏CreateAMind

深度学习调参有哪些技巧?

最近因为一些需要,参与了一些CNN建模调参的工作,出于个人习性,我并不习惯于通过单纯的trial-and-error的方式来调试经常给人以”black-box...

2064
来自专栏机器之心

深度 | 最后一届ImageNet挑战赛落幕,「末代」皇冠多被国人包揽

选自LSVRC 2017 机器之心编译 参与:机器之心编辑部 近日,ImageNet 最后一届挑战赛成绩已经公布,多个国内院校和企业在各个比赛项目上取得了非常不...

3675
来自专栏AI科技大本营的专栏

一文带你了解深度神经网络架构发展史

作者 | Eugenio Culurciello 译者 |叶俊贤 深度神经网络和深度学习算法因为在科研工作与工程任务中都取得了显著的效果从而大受欢迎。而其中取...

37112
来自专栏企鹅号快讯

当前深度神经网络模型压缩和加速方法速览

导读: 本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷...

5576
来自专栏AI科技大本营的专栏

最讨厌说大话,只想聊经验!我从创建Hello world神经网络到底学会了什么?

我开始跟神经网络打交道是在几年之前,在看了一篇关于神经网络用途的文章后,我特别渴望能够深入研究一下这个在过去几年间吸引了众多关注的问题解决方案。 2015年,斯...

3885

扫码关注云+社区

领取腾讯云代金券