我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗?如果我们可以使用它,为什么大多数教程直接告诉GIS或IIS方法,但不显示简单的梯度下降法来训练最大熵模型?正如我们所知,softmax回归相当于最大模型,但我从未听说过GIS或IIS在softmax中。为什么?是否有一个玩具代码使用简单的梯度去训练最大模型?我认为很容易实现一个玩具代码,它的推导只是计算经验期望和模型期望。
发布于 2016-07-10 11:45:29
“最大熵模型”是一个定义不清的术语,它可以描述几十种最大熵的方法。然而,如果您提到最著名的"MaxEnt“,那么就是logistic回归,它和通常是用梯度下降的求解的。此外,经典的前馈网络在最后一层采用了logistic回归代价(即最大熵代价),并用SGD进行了求解。
为了更普遍地回答-任何模型,有一个成本差异的参数可以学习使用GD。例如,支持向量机可以在GD中学习(尽管通常不是因为我们有更有效的方法来利用SVM的一些特定特性)。
同样,“可以解决”并不意味着“应该是”,因为GD是非常通用的工具,它不利用问题的特性(如曲率等)。迭代标度方法更适合于MaxEnt的一个特殊的优化问题,因为我们对MaxEnt成本了解得更多,它是可微的,并且有单一的解决方案。
有关许多详细信息,请参阅伯克利讲座,并逐步介绍许多可能的方法。
https://stackoverflow.com/questions/38290406
复制相似问题