本文其实是我在知乎上无意中翻到的一条提问:softmax到底有哪些作用?,其中苏剑林大佬关于第四个问题的回复,给我产生了一些思考。为什么一个分布在多次Softmax之后,每个值会趋于相同?...例如[1,100]在大约10次Softmax操作后会变成[0.5,0.5];[1,2,3,4]大约5次Softmax操作后会变成[0.25,0.25,0.25,0.25]
苏剑林大佬的原话是:“这其实是一个没什么实用价值的结果...,因为对Softmax的结果再次进行Softmax没有什么物理意义”。...实际上由于篇幅限制,苏剑林大佬的证明过程省略了不少步骤,因此这里我给出完整的证明流程
设第i次迭代后的向量为(p_1^{(i)},p_2^{(i)},...