欢迎关注“计算机视觉研究院”
计算机视觉研究院专栏
作者:Edison_G
如同物理大时代寻求统一的量子力学,深度学习也许也需要一个统一的理论框架。
MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度学习理论研究可以分为三大类:
19 年顶会关于理论的研究
统计数据可见附录A:https://www.jiqizhixin.com/articles/2020-01-01-20。
一般偏算法或模型的论文,阅读起来还是非常友好的,论文会介绍直观想法、形式化过程及最终结果。但偏理论的论文会要求很多领域知识,尤其是坚实的数学基础。文章后面会具体介绍几项代表性研究,但现在,我们还是先看看整体都是什么样的。
有问题的泛化性
论文 [2] 一作 Vaishnavh Nagarajan 说:「之前的研究大多数都基于一致性收敛考虑泛化边界,但我们的研究表明这类问题很可能是局限的。」目前 Rademacher Complexity、Covering Numbers 和 PAC-Bayes 等众多前沿泛化边界分析都可能存在问题。
正如上式所示,即使再精炼,一致性收敛边界可能推导出约等于 1,但真实的泛化差距可能接近于 0。这样的结果是非常虚的,它并起不到什么作用。
VGG-19 在 CIFAR-10 上的测试效果,从左到右分别是迭代 30K、60K、112K 的结果。选自:arXiv:1803.03635。
参考文献:
[1]Theoretical Issues in Deep Networks: Approximation, Optimization and Generalization, arXiv:1908.09375
[2]Uniform convergence may be unable to explain generalization in deep learning, arXiv:1902.04742
[3]The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, arXiv:1803.03635
[4]Rates of Convergence for Sparse Variational Gaussian Process Regression, arXiv:1903.03571
[5]Neural Ordinary Differential Equations, arXiv:1806.07366
[6]Solving Imperfect-Information Games via Discounted Regret Minimization, arXiv:1809.04040
[7]Nonparametric density estimation & convergence of GANs under Besov IPM losses, arXiv:1902.03511
[8]A Simple Theoretical Model of Importance for Summarization, arXiv:1801.08991
[9]Density estimation by wavelet thresholding, David L Donoho et al.
© THE END