交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。
在信息论中,交叉熵(Cross Entropy)是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。。
对于连续变量采用以下的方式计算:
交叉熵在深度学习的损失函数中得到广泛应用
真实数据分布(标签)为Y,预测分布为P
事实上我们用的交叉熵为H(Y,P),即使用Y的分布,用P的编码方式度量信息熵大小
其中: y_{i} 表示样本 i 的label, 正类为 1, 负类为 0 p_{i} \longrightarrow 表示样本 i 预测为正的概率
至于为什么不用H(P,Y),可能是因为y的值很容易取到0,超出了log运算的变量取值范围无法计算吧(个人猜测)