梯度下降(GD)在深度神经网络(DNN)非凸损失景观上的收敛性是一个基础性理论挑战。虽然近期研究已证明GD在局部拟凸区域(LQCRs)内以次线性速率收敛至驻点,但这无法解释实践中持续观察到的指数级收敛速率。
本文通过神经正切核(NTK)稳定性假设解决了这一差异,证明这些相同区域满足局部Polyak-Lojasiewicz(PL)条件。引入了局部Polyak-Lojasiewicz区域(LPLR)概念,其中梯度平方范数下界于次优间隙,证明了适当初始化的有限宽度网络在初始化点附近存在此类区域,并确立GD在LPLR内实现线性收敛,首次提供与实证观察速率匹配的有限宽度保证。
通过从全连接网络的受控实验到采用随机方法训练的现代残差网络架构的多样化设置验证理论,证明LPLR结构在实际深度学习场景中稳健涌现。通过NTK框架严格连接局部景观几何与快速优化,为基于梯度的优化在深度学习中的卓越效率提供确定性理论解释。
主题分类:
机器学习(stat.ML);机器学习(cs.LG)
MSC分类:
68T07, 90C26, 65K10
引用信息:
arXiv:2507.21429 stat.ML
DOI: 10.48550/arXiv.2507.21429
提交历史:
2025年7月29日由Agnideep Aich提交
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。