首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我们能在最大熵模型中使用梯度下降法吗?

我们能在最大熵模型中使用梯度下降法吗?
EN

Stack Overflow用户
提问于 2016-07-10 09:22:14
回答 1查看 680关注 0票数 2

我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗?如果我们可以使用它,为什么大多数教程直接告诉GIS或IIS方法,但不显示简单的梯度下降法来训练最大熵模型?正如我们所知,softmax回归相当于最大模型,但我从未听说过GIS或IIS在softmax中。为什么?是否有一个玩具代码使用简单的梯度去训练最大模型?我认为很容易实现一个玩具代码,它的推导只是计算经验期望和模型期望。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-10 11:45:29

“最大熵模型”是一个定义不清的术语,它可以描述几十种最大熵的方法。然而,如果您提到最著名的"MaxEnt“,那么就是logistic回归,它和通常是用梯度下降的求解的。此外,经典的前馈网络在最后一层采用了logistic回归代价(即最大熵代价),并用SGD进行了求解。

为了更普遍地回答-任何模型,有一个成本差异的参数可以学习使用GD。例如,支持向量机可以在GD中学习(尽管通常不是因为我们有更有效的方法来利用SVM的一些特定特性)。

同样,“可以解决”并不意味着“应该是”,因为GD是非常通用的工具,它不利用问题的特性(如曲率等)。迭代标度方法更适合于MaxEnt的一个特殊的优化问题,因为我们对MaxEnt成本了解得更多,它是可微的,并且有单一的解决方案。

有关许多详细信息,请参阅伯克利讲座,并逐步介绍许多可能的方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38290406

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档