深入广义线性模型：分类和回归

WZEARW

发布于 2018-04-13 17:24:25

1.9K0

发布于 2018-04-13 17:24:25

文章被收录于专栏：专知

【导读】本文来自AI科学家Semih Akbayrak的一篇博文，文章主要讨论了广义的线性模型，包括：监督学习中的分类和回归两类问题。虽然关于该类问题的介绍文章已经很多，但是本文详细介绍了几种回归和分类方法的推导过程，内容涉及：线性回归、最大似然估计、MAP、泊松回归、Logistic回归、交叉熵损失函数、多项Logistic回归等，基本上涵盖了线性模型中的主要方法和问题，非常适合新手入门线性模型。专知内容组编辑整理。

Generalized Linear Models

今天的主题是广义线性模型（GeneralizedLinear Models），一组用于监督学习问题（回归和分类）的通用机器学习模型。

我们从线性回归模型开始吧。我认为，每个人在学习期间都会以某种方式遇到线性回归模型。线性回归模型的目标是在观察到的特征和观察到的实际输出之间找到一个线性映射，以便当我们看到一个新的示例时，我们可以预测输出。在这篇文章中，我们有N个观测样本，其输出是y，每一个观测样本x有M个特征，这些信息用于训练。

我们定义一个M维向量w来表示将输入映射到输出的权重。我们用N*M维矩阵 X来表示所有的输入。 y被定义为N维输出向量。

图显示我们试着使Xw拟合实际输出值y

我们的目标是找到最好的参数w使真实输出向量y和近似值X*w之间的欧式距离最小。为此，我们通常使用最小二乘误差和矩阵运算来最小化它。这里我们用L表示损失（误差）函数。

图表示线性回归问题中如何优化参数w

上面只是把线性回归这个问题使用线性代数的方式进行分析，但为了更好地理解问题本身，并将其扩展到不同的问题设置，我们将以一种更好的形式（概率的角度）来分析这个问题。

在开始时，我们说输出是一个实数值。实际上，我们假设输出是从正态分布中采样得到的，可以通过设置其是以均值为Xw和方差为I（单位方差）的正态分布，如下所示，

现在，我们的目标是找到使输出y似然最大即p(y|X, w)最大化的w。我们定义p(y|X, w) 服从上面的正态分布，其似然函数如下所示：

直接使用似然函数优化是比较困难的，相反，我们将使用和似然函数相同的maxima和minima的对数似然函数。即可以最大化对数似然或最小化负对数似然。我们选择第二个并称之为损失函数（loss function）。

该损失函数与最小二乘误差函数完全相同。所以我们概率解释了线性回归，这对于下面介绍的模型是非常有帮助的。

MAP解决方法（MAP solution）

上面的解决方法被称为最大似然法，因为这正是我们所做的，使可能性最大化。现在，我们可以把先验概率放在权重上，使w的后验分布最大化，而不是y的似然值。

图显示了MAP方法的流程

在上面的公式中，我们定义权重w的先验是零均值，单位方差的高斯分布，以及使用负对数后验分布来进行损失函数的求解。在这种情况下，w的先验分布试图保持其平均值为0的权重值。这个过程称为L2正则化（岭回归），其在优化时约束权重参数w的值，这可以在损失函数中看到。

先验分布反映了我们对w值的置信度，它不一定是正态分布。如果我们把拉普拉斯分布作为先验，则正则化项将是权重 w（L1正则化 - Lasso）的1-范数。

为了更好地说明正则化效果，我会举一个例子。假设我们有一个具有特征[2,1]和输出3的数据点。对于这个问题，有很多种方法来设置权重从而满足这个式子，但，L2正则化更喜欢权重w的值为[1,1]，而L1正则化更喜欢[ 1.5,0]，因为[1,1]的2-范数和[1.5,0]的1-范数是所有可能解中最小的那个。因此，我们看到L2正则化尝试尽可能地保持所有权重值接近0。另一方面，L1正则化更喜欢稀疏的解。

泊松回归（Poisson Regression）

我们使用线性回归来处理输出是实数的情况。更具体地说，如果输出值是计数（counts），那么我们可以改变似然分布，并为这个新问题使用相同的设置。泊松分布是模型计数数据的合适分布，我们将使用它。