学界 | 哥伦比亚大学与Adobe提出新方法,可将随机梯度下降用作近似贝叶斯推理

选自arXiv

机器之心编译

参与:吴攀

伦比亚大学和 Adobe 的三位研究者近日在 arXiv 上的一篇论文《用作近似贝叶斯推理的随机梯度下降(Stochastic Gradient Descent as Approximate Bayesian Inference)》提出了一种可将随机梯度下降用作近似贝叶斯推理的新方法。该论文共做出了 5 项贡献。在 Reddit 上有人对此研究评论说:「随机梯度下降总是比你想像的更强大。」机器之心对本论文进行了摘要介绍,原论文可点击文末「阅读原文」查阅。

具有恒定的学习率的随机梯度下降(constant SGD)可以模拟具有静态分布的马尔可夫链。基于这个观点,我们得到了一些新结果。(1) 我们表明 constant SGD 可以被用作近似贝叶斯后验推理算法(approximate Bayesian posterior inference algorithm)。具体而言,我们表明可以如何调整 constant SGD 的调优参数来最好地匹配一个后验的静态分布,以最小化这两个分布之间的 Kullback-Leibler 散度。(2) 我们表明 constant SGD 能产生一个新的变分 EM 算法,该算法可以在复杂的概率模型中对参数进行优化。(3) 我们还提出了用于采样的带有动量的 SGD(SGD with momentum),并且给出了相应地调整阻尼系数的方法。(4) 我们分析了 MCMC 算法。对于 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring,我们量化了其由于有限学习率而导致的近似误差。最后 (5),我们使用这个随机过程的观点简要地证明了为什么 Polyak 平均是最优的。基于这一思想,我们提出了一种可扩展的近似 MCMC 算法——平均随机梯度采样器(Averaged Stochastic Gradient Sampler)。

图 1:后验分布 f (θ) ∝ exp {−NL (θ)}(蓝色)与 SGD 的迭代的静态采样分布 q(θ)(青色)或基于再参数化梯度的黑箱变分推理(BBVI:black box variational inference)。行:(上)线性回归,(下)logistic 回归,在第 6 节讨论。列:(左)full-rank preconditioned constant SGD,(中)constant SGD,(右)BBVI。我们给出了在该后验的最小和最大主成分上的投射。这幅图还给出了在 Ornstein-Uhlenbeck 过程(Eq. 13)中该后验的经验协方差(3 标准差)(黑色)、样本的协方差(黄色)和它们的预测(红色)

图 2:随机梯度下降迭代的经验协方差和预测协方差,其中预测基于 Eq.13。我们在葡萄酒质量数据集上使用了线性回归,详见 6.1 节。

算法 1:迭代平均随机梯度下降采样器(IASG)

图 3:在线性回归上的迭代平均(iterate averaging),其中我们生成类似于模型生成的人造数据。(a) 给出了该 SGD 迭代的经验协方差,而 (c) 给出了带有最优的时间窗口选择的平均迭代。其结果得到的协方差非常类似于 (b) 中的真实后验协方差。这表明迭代平均有可能得到后验采样。

图 4:IASG(顶行)、SGLD(中行)和 NUTS(底行)在线性回归上的收敛速度比较。该图分别给出了最小(黄色)和最大(蓝色)的后验边界方差作为迭代的函数,其以通过数据的次数作为度量。误差柱表示一个标准差。红色实线表示 ground truth。左图是以后验最大值初始化的,而右图是随机初始化的。

图 5:用不同的方法所估计的后验协方差,参见图 4。顶行是用后验最大值对采样器进行初始化所得到的结果。底行是随机初始化的结果。对于 MAP 初始化,所有的采样器都可以找到对后验的一个良好估计。当随机初始化时,IASG 的表现优于 NUTS 和 SGLD。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PaddlePaddle

卷积神经网络的经典结构(二)

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将详细介绍卷积神经网络中经典网络模型案例分析,包括Alex-Net、VGG-Nets、Ne...

14020
来自专栏数据派THU

综述 | 近年来深度学习的重要研究成果(附PDF)

本文列举出了近年来深度学习的重要研究成果,从方法、架构,以及正则化、优化技术方面进行概述。

30010
来自专栏SIGAI学习与实践平台

【技术短文】人脸检测算法之 S3FD

同时在本微信公众号中,回复“SIGAI”+日期,如“SIGAI0515”,即可获取本期文章的全文下载地址(仅供个人学习使用,未经允许,不得用于商业目的)。

11030
来自专栏目标检测和深度学习

入门 | 献给新手的深度学习综述

论文:Recent Advances in Deep Learning: An Overview

12720
来自专栏新智元

Graph 卷积神经网络:概述、样例及最新进展

【新智元导读】Graph Convolutional Network(GCN)是直接作用于图的卷积神经网络,GCN 允许对结构化数据进行端到端的学习,也即输入可...

1.1K90
来自专栏AI研习社

引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名(理解/泛化/迁移篇)

编者按:我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上,大神 @Terryum 整理了一份精心编写的论文推...

39180
来自专栏机器之心

入门 | 献给新手的深度学习综述

论文:Recent Advances in Deep Learning: An Overview

15730
来自专栏统计学习方法

《统计学习方法》第八章-提升方法

在《统计学习方法》中第八章提升方法,包括四节,第一节介绍AdaBoost、第二节介绍AdaBoost的误差、第三节介绍从前向分布算法来实现AdaBoost、第四...

21460
来自专栏算法channel

算法channel 2017回顾

1 算法channel 公众号才成立两个月,在这段日子,每天推送一篇算法,机器学习,深度学习相关的文章,包括: 算法的基本思想 算法的实例分析 有些算法的源代码...

37260
来自专栏Python数据科学

机器学习之神经网络基础

目前,深度学习(Deep Learning,简称DL)在算法领域可谓是大红大紫,现在不只是互联网、人工智能,生活中的各大领域都能反映出深度学习引领的巨大变革。要...

7110

扫码关注云+社区

领取腾讯云代金券