专栏首页AI人工智能深度神经网络的泛化间隙

深度神经网络的泛化间隙

深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别、图像分割、机器翻译等各种领域,并且总是表现惊艳。

然而,深度神经网络到底是怎样工作的,至今仍困扰着广大研究者。

黑盒子总是让人诟病,为了让AI更好地服务于人类,更深入地理解AI是必要的。

谷歌AI的研究人员们正致力于此,他们在ICLR 2019的一篇论文中提出 用边缘分布来预测深度神经网络的泛化间隙 ,以便更有原则地设计DNN。

边缘分布成泛化预测因子

想要理解泛化,就要了解一个重要的概念 泛化间隙(generalization gap) ,即模型在训练集上的准确率与在测试集上的准确率之间的差异。

谷歌AI的研究者建议在网络层上使用归一化的边缘分布来预测泛化间隙。他们进行了实验统计,发现在对距离进行适当的归一化之后,边缘分布的一些基础统计可以准确地预测出模型的泛化间隙。

上面的三张图分别对应在CIFAR-10上训练过的三个卷积神经网络,它们的分类准确率分别是55%、71%和85%,从左到右,泛化能力越来越强。

y轴表示归一化边缘分布(x轴)在模型的4层网络中的概率密度,很显然,边缘分布和测试准确率具有很强的关联性。

这里他们采用了一个名为 Deep Model Generalization(DEMOGEN) 的数据集,这个数据集由756个训练过的深度模型组成,囊括了这些模型在CIFAR-10和CIFAR-100数据集上的训练及测试表现。数据集现已 开源

实验结果

如果边缘分布的统计数据真实地预测了泛化性能,那么简单的预测方案应该就能够建立起对应关系。于是研究者们选择了线性回归的方案。

研究者在CIFAR-10数据集上训练了216个九层卷积网络,测试集的准确率范围在60%-90.5%之间,泛化间隙在1%到35%之间。

作者表示,Bartlett在2017年发表的研究提供了目前最佳的深度网络泛化界限之一,将其作为基线方法进行对比,完整的20维特征空间的对数空间回归模型预测效果提升明显。

而在CIFAR-100数据集上,研究者训练了324个ResNet-32网络,测试准确率范围在12%-73%之间,泛化间隙范围在1%-75%之间。

在CIFAR-100+ResNet-32上预测的泛化间隙已经非常符合真实值了。泛化间隙和边缘分布的对数变换统计之间的关系几乎是完全线性的。

原文链接:https://www.shangyexinzhi.com/article/details/id-166656/

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用Python进行数据分析的10个小技巧

    一些小提示和小技巧可能是非常有用的,特别是在编程领域。有时候使用一点点黑客技术,既可以节省时间,还可能挽救“生命”。

    商业新知
  • 机器学习中的微积分和概率统计

    中国教科书中通常首先学习导数,例如中学时期的切线方程,函数单调性,零值点和极值点个数等等,而直到大学时期才引入微分的概念,导致大多数人通常并不了解微分和导数之间...

    商业新知
  • 回归模型评估指标(机器学习基础)

    注:在英语中,error和deviation的含义是一样的,所以Mean Absolute Error也可以叫做Mean Absolute Deviation(...

    商业新知
  • 学界 | 模型的泛化能力仅和Hessian谱有关吗?

    经验表明,通过训练深度神经网络得到的不同局部最优值往往并不能以相同的方式泛化到未知数据集上,即使取得了相同的训练损失。近年来,这一问题日益受到经验和理论深度学习...

    机器之心
  • ICLR 2019 | 如何理解深度神经网络的泛化性能?谷歌认为可以从「泛化鸿沟」入手

    AI 科技评论按:深度神经网络(DNN)作为机器学习的基础,为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献,然而研究人员始终都无法完全理解...

    AI研习社
  • ICLR 2019 | 如何理解深度神经网络的泛化性能?谷歌认为可以从「泛化鸿沟」入手

    AI 科技评论按:深度神经网络(DNN)作为机器学习的基础,为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献,然而研究人员始终都无法完全理解...

    AI科技评论
  • 拒绝DNN过拟合,谷歌准确预测训练集与测试集泛化差异,还开源了数据集 | ICLR 2019

    深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别、图像分割、机器翻译等各种领域,并且总是表现惊艳。

    量子位
  • 「机器学习」:不得不知的概念(2)

    在上一篇推送中我们总结了机器学习第一课,一些最最基本的概念,比如特征,训练集,维数,假设空间等,接下来,继续介绍机器学习第二课,通过一个例子说明什么是机器学习的...

    double
  • 学界 | Yoshua Bengio与MIT发表新论文:深度学习中的泛化

    选自arXiv 机器之心编译 参与:路雪、刘晓坤 日前,MIT 和 Bengio 发表新论文,探讨深度学习中的泛化。该论文解释了深度学习能够实现较好泛化的原因,...

    机器之心
  • ICLR2020 | 谷歌最新研究:用“复合散度”量化模型合成泛化能力

    据官方消息,ICLR 2020会议将取消线下会议,并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿,其中 687篇论文被接收(48篇oral...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券