这篇文章将从3个角度:加权、模版匹配与几何来理解最后一层全连接+Softmax。掌握了这3种视角,可以更好地理解深度学习中的正则项、参数可视化以及一些损失函数背后的设计思想。
深度神经网络的最后一层往往是全连接层+Softmax(分类网络),如下图所示,图片来自StackExchange。
如果是只有一个全连接层的神经网络(相当于线性分类器),将每个类别的模板可以直接可视化如下,图片素材来自CS231n。
如果是多层神经网络,最后一个全连接层的模板是特征空间的模板,可视化需要映射回输入空间。
仍将全连接层的输入\(\mathrm{x}\)视为网络从输入数据提取到的特征,一个特征对应多维空间中的一个点。
如下图所示:
本文介绍了3种角度来更直观地理解全连接层+Softmax,
视角不同,看到的画面就不同,就会萌生不同的idea。有些时候,换换视角问题就迎刃而解了。
以上。