问我们能在最大熵模型中使用梯度下降法吗？
EN

Stack Overflow用户

提问于 2016-07-10 09:22:14

回答 1查看 680关注 0票数 2

我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗？如果我们可以使用它，为什么大多数教程直接告诉GIS或IIS方法，但不显示简单的梯度下降法来训练最大熵模型？正如我们所知，softmax回归相当于最大模型，但我从未听说过GIS或IIS在softmax中。为什么？是否有一个玩具代码使用简单的梯度去训练最大模型？我认为很容易实现一个玩具代码，它的推导只是计算经验期望和模型期望。

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-10 11:45:29

“最大熵模型”是一个定义不清的术语，它可以描述几十种最大熵的方法。然而，如果您提到最著名的"MaxEnt“，那么就是logistic回归，它和通常是用梯度下降的求解的。此外，经典的前馈网络在最后一层采用了logistic回归代价(即最大熵代价)，并用SGD进行了求解。

为了更普遍地回答-任何模型，有一个成本差异的参数可以学习使用GD。例如，支持向量机可以在GD中学习(尽管通常不是因为我们有更有效的方法来利用SVM的一些特定特性)。

同样，“可以解决”并不意味着“应该是”，因为GD是非常通用的工具，它不利用问题的特性(如曲率等)。迭代标度方法更适合于MaxEnt的一个特殊的优化问题，因为我们对MaxEnt成本了解得更多，它是可微的，并且有单一的解决方案。

有关许多详细信息，请参阅伯克利讲座，并逐步介绍许多可能的方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38290406

复制

相似问题

问我们能在最大熵模型中使用梯度下降法吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们能在最大熵模型中使用梯度下降法吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们能在最大熵模型中使用梯度下降法吗？
EN