逻辑回归是一个基本的分类算法,也属于广义线性模型中的一种。下面,以广义线性模型的推导思路来说明这一算法。
逻辑回归假定样本的类别服从伯努利分布,即
这一分布的期望为
能否像线性回归一样,直接用线性模型拟合
ρ
呢?是不行的,因为线性模型的值域为整个实数,而
ρ
为概率值,因此需要进行一下转换,常用的转换就是使用sigmoid函数,如下
另外的一种解释是,虽然
ρ
的范围是0到1,但正例与反例的比值是个正的实数,即
此数值也称为几率。再对它取对数,就变换为了整个实数,即
容易看出,sigmoid函数的解释和几率的解释是一致的。
似然函数
所有样本的似然函数
取对数,就得到
接下来就可以通过梯度下降的方法进行求解了。
Logistic损失
与逻辑回归相关联的还有一个logistic损失的概念。
上面的推导中,假定了类别
y
可取0和1两个值,但这并不是一个关键的问题,实际上,
y
可以设定取任何两个实数。
当设定为取-1和1时,上面的对数似然函数等价于最小化下面函数
其中,求和号里面的部分就是logistic损失。
因此,逻辑回归也等价于使用logistic损失来衡量回归效果的线性回归。
领取专属 10元无门槛券
私享最新 技术干货