1.交叉熵损失函数
在物理学中,“熵”被用来表示热力学系统所呈现的无序程度。香农将这一概念引入信息论领域,提出了“信息熵”概念,通过对数函数来测量信息的不确定性。...那么对于数据 x而言,其实际类别分布概率 y和模型预测类别分布概率
\hat{y}
的交叉熵损失函数定义为:
cross entryy=-y\times\log(\hat{y})
很显然,一个良好的神经网络要尽量保证对于每一个输入数据...图1 三类分类问题中输入x的交叉熵损失示意图(x 属于第一类)
在上面的例子中,假设所预测中间值 (z1,z2,z3)经过 Softmax映射后所得结果为 (0.34,0.46,0.20)。...如果选择交叉熵损失函数来优化模型,则 (z1,z2,z3)这一层的偏导值为 (0.34−1,0.46,0.20)=(−0.66,0.46,0.20)。...在这里,交叉熵与Softmax函数结合在一起,因此也叫
Softmax
损失(Softmax with cross-entropy loss)。