于是,我们使用统计学家很早以前就发明的一种表示分类数据的简单方法:独热编码(one-hot encoding)。独热编码是一个向量,它的分量和类别一样多。类别对应的分量设置为1,其他所有分量设置为0。...在我们的例子中,标签yyy将是一个三维向量,其中(1,0,0)(1, 0, 0)(1,0,0)对应于“猫”、(0,1,0)(0, 1, 0)(0,1,0)对应于“鸡”、(0,0,1)(0, 0, 1)(...为了将未归一化的预测变换为非负并且总和为1,同时要求模型保持可导。首先对每个未归一化的预测求幂,这样可以确保输出非负。为了确保最终输出的总和为1,需要再对每个求幂后的结果除以它们的总和。...然后我们可以选择具有最大输出值的类别 argmaxjyj\operatorname*{argmax}_j y_jargmaxjyj 作为我们的预测。...softmax运算不会改变未归一化的预测o\mathbf{o}o之间的顺序,只会确定分配给每个类别的概率。因此,在预测过程中,仍然用下式来选择最有可能的类别。