公式
定义
在信息论中,若一个符号字符串中的每个字符的出现概率
已知,则可用香农熵估计该字符串中每个符号
编码所需的平均最小位数....例如,可计算单次"HELLO"的熵:
因此,采用最优编码方案时,"Hello"中的每个符号需要2位计算单词"Hello"中的每个符号需要2位....例如,ASCII会对每个符号赋予相同的概率值
.下面计算采用ASCII编码时单词"HELLO"的交叉熵:
从而采用ASCII编码时,每个字符需要8个位,这与预期完全吻合....有这样一个定理:当p=q时,交叉熵去的最小值.因此可以利用交叉熵比较一个分布与另一个分布的吻合情况.交叉熵越接近与熵,q便是针对p更好的逼近,实际上,模型的输出与期望输出越接近,交叉熵也会越小,这正是损失函数所需要的...在对熵进行最小化时,将
替换为log完全没有任何问题,因为两者只相差一个常系数.
参考资料
面向机器智能的tensorflow实践