每天一个ml模型——逻辑斯蒂回归与最大熵模型

文章来源：企鹅号 - Deep导航

该系列的宗旨为：少公式，简洁化，掌握核心思想，面向对机器学习感兴趣的朋友，后期会写应用篇。

ps：主要源自李航《统计学习方法》以及周志华《机器学习》，水平所限，望大牛们批评指正。

逻辑斯蒂回归与最大熵模型：多类分类

模型特点：特征条件下类别的条件概率分布，对数线性模型

学习策略：极大似然估计，正则化的极大似然估计

学习的损失函数：逻辑斯蒂损失

学习算法：改进的迭代尺度算法，梯度下降，拟牛顿法

应用场景：疾病自动诊断、经济预测

简介：逻辑斯蒂回归是统计学习中经典分类方法，最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。

1、逻辑斯蒂回归模型

逻辑斯蒂回归的目的：寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法来完成。在最优化算法中，最常用的是梯度下降法，而梯度下降算法又可以简化为随机梯度下降。

1.1模型

该模型可以用于二类或多类分类

1.2模型参数估计

可以应用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型

在二项逻辑斯蒂回归模型中，对于给定的训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)},其中yi∈

设

P=π(x)

P=1-π(x)

则其对数似然函数为

对L(w)求极大值便得到了w的估计值，通常采用梯度下降法及拟牛顿法

2、最大熵模型

原理：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型，通常用约束条件来确定概率模型的集合。在没有更多信息的情况下，那些不确定的部分都是“等可能的”，最大熵原理通过熵的最大化来表示等可能性。

最大熵模型是由以下条件概率分布表示的分类模型，最大熵模型也可以用于二类或多类分类

其中，Zw(x)是规范化因子，fi为特征函数，wi为特征的权重

3、模型学习的最优化算法

改进的迭代尺度法(IIS)

基本思想：假设最大熵模型当前的参数向量是w=(w1,w2,...,wn)T，我们希望找到一个新的参数向量w+δ =(w1+ δ1,w2+ δ2,...,wn+ δn)T,使得模型的对数似然函数值最大

如果能有这样一种参数向量更新方法w —> w+δ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。

嗯，逻辑斯蒂回归，永远的痛，关于最优化算法，下次小吴会单独写一章介绍。有朋友觉得这些太理论了，但小吴觉得算法这种东西还是得掌握其思想，后续会陆续展开应用的篇章。五一之后，小吴公司上班有点忙，更新有点慢，捂脸。

另外，小吴的师兄也开始在deepleading公众号发文章啦。欢迎关注公众号。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货