首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ICCV2023论文精选!从微分方程角度理解self-attention机制的底层逻辑!

自注意力机制(self-attention)广泛应用于人工智能的各个领域,成功地提升了不同模型的性能。然而,目前对这种机制的解释主要基于直觉和经验,而对于自注意力机制如何帮助性能的直接建模仍然缺乏。为了缓解这个问题,在本文中,基于残差神经网络的动力系统视角,我们首先展示了在常微分方程(ODEs)的高精度解中存在的本质刚度现象(SP)也广泛存在于高性能神经网络(NN)中。因此,NN在特征层面上测量SP的能力是获得高性能的必要条件,也是影响NN训练难度的重要因素。类似于在求解刚性ODEs时有效的自适应步长方法,我们展示了自注意力机制也是一种刚度感知的步长适配器,它可以通过细化刚度信息的估计和生成自适应的注意力值,增强模型测量内在SP的表征能力,从而提供了一个关于为什么和如何自注意力机制可以提高模型性能的新理解。这种新的视角也可以解释自注意力机制中的彩票假设,设计新的表征能力的定量指标,并启发了一种新的理论启发式方法,StepNet。在几个流行的基准数据集上的大量实验表明,StepNet可以提取细粒度的刚度信息并准确地测量SP,从而在各种视觉任务中取得显著的改进。

04
领券