首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差

众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。

01

HumanNeRF:从单目视频中实现移动人物的自由视点渲染

给定一个人类表演活动的单个视频,我们希望能够在任何一帧暂停,并围绕表演者旋转360度,以便在那个时刻从任何角度观看(图1)。这个问题——移动物体的自由视点渲染——是一个长期存在的研究挑战,因为它涉及到合成以前看不见的相机视图,同时考虑布料褶皱、头发运动和复杂的身体姿势。这个问题对于在本文中所讨论的用单个相机拍摄的“现场”视频(单目视频)来说尤其困难。以前的神经渲染方法通常假设多视图输入、仔细的实验室捕捉,或者由于非刚体运动而在人类身上表现不佳。特定于人类的方法通常假设SMPL模板作为先验,这有助于约束运动空间,但也会在服装中引入SMPL模型无法捕捉到的伪影和复杂运动。最近可变形的NeRF方法对于小的变形表现良好,但在舞蹈等大型全身运动中表现不佳。本文介绍了一种称为HumanNeRF的方法,该方法将移动的人的单个视频作为输入,在每帧、现成的分割(通过一些手动清理)和自动3D姿势估计之后,优化人体的标准体积T姿势,以及通过后向扭曲将估计的标准体积映射到每个视频帧的运动场。运动场结合了骨骼刚性运动和非刚性运动,每种运动都以体积表示。其解决方案是数据驱动的,标准体积和运动场源自视频本身,并针对大型身体变形进行了优化,端到端训练,包括3D姿势细化,无需模板模型。在测试时,可以在视频中的任何一帧暂停,并根据该帧中的姿势,从任何视点渲染生成的体积表示。

01
领券