文章/答案/技术大牛

发布

让人眼花缭乱的多项逻辑回归，原来是这么用的

文章来源：企鹅号 - 协和八

说人话的统计学

在前面的一期“说人话的统计学”专栏《逻辑回归能摆平二分类因变量，那……不止二分类呢？》里，我们在理论层面讨论了多项逻辑回归，将逻辑回归推广到因变量大于两个类别的情况。光说不练可不是我们说人话系列的风格，这一集，我们来看看如何用它回答具体的问题。

最近，蓝精灵们沉迷网络，越来越宅，变成了懒精灵，格格巫嗅到了商机，赶紧在蓝精灵村落的很多地方安放了自动售货机。考虑到蓝精灵们都是吃货，格格巫的自动售货机主打食品，共提供四种选择：蓝莓，蘑菇，披萨还有面包。由于这款自动售货机刚刚推出，操作一次只能买一个商品。

自动售货机的生意进行得很顺利，但是格格巫对于运营却毫不懈怠，每天盯着交易记录，琢磨着怎样才进一步提高自动售货机的销量。思来想去之后，格格巫觉得如果能知道预测每一天不同时间段蓝精灵们买哪个商品较多，就可以有针对性地多存一些，说不定还可以进行一些捆绑销售增加销量，想到这里，格格巫不禁陶醉于自己天才的想法。

然而，格格巫对着屏幕上的数字琢磨来琢磨去，也看不出来有什么规律，无奈之下只好找蓝精灵聪聪帮忙。聪聪考虑到这事儿也是为了让村里人生活更方便，就答应帮忙了，正好还可以练习一下最近刚学到的多项逻辑回归方法。

首先，聪聪得决定用哪些收据来做分析，他发现自动售货机保存了每一次交易的时间和种类，再考虑到天气对蓝精灵们想吃什么影响也很大，聪聪也查找了交易当天的平均气温，并记录下来。为了简化分析，聪聪把时间可以分为白天和晚上两个时间段。统计了各个自动售货机的销售记录，得到了下面形式的数据：

表1: 蓝精灵自动售货机交易数据，这里只显示了前十行的数据，数据总量有400行。

聪聪决定用多项逻辑回归来研究交易时间和气温对购买特定食品概率的相关关系，也就是说，模型的自变量是交易时间和交易当天的气温，因变量是购买不同食品的概率。为了方便模型的计算，我们把晚上时间段作为0，白天作为1来处理，当然反过来将晚上做为1也是可以的，只是在回归系数的含义会稍有不同。模型用数学公式可以表示为：

在上一集里，我们强调了多项逻辑回归必须得选择因变量的一个类别最为参考类别。在这个例子里面，我们选择了面包作为参考类别。那是不是选任何一个类别作为参考类别都是等价的呢？

这取决于你关注模型的哪些方面。首先，选取不同的参考类别不会影响模型的对因变量的预测值，无论选面包还是披萨作为参考类别，只要模型的输入（自变量取值）相同，那么对与购买各种商品概率的预测都是相同的。需要注意的事，选择不同的参考类别会影响回归系数意义的解读，甚至具体的回归系数是否具有统计显著性也与参考类别的选取有关。

将面包定参考类别之后，就可以在统计软件里面拟合模型，用最大似然法找出的模型回归系数如下：

表2: 用多项逻辑回归模型拟合蓝精灵自动售货机交易数据得到的回归系数

这也就是说，气温和是否是白天按照下面的规律与蓝精灵购买的商品种类相关：

如果我们想知道气温等于15度的时候购买不同商品的概率，可以按照下面步骤计算：

在上一集《逻辑回归能摆平二分类因变量，那……不止二分类呢？》里，我们提到，结合下面的隐含条件：

p蓝莓+p蘑菇+p披萨+p面包=1

我们便可以计算出特定条件下购买不同商品的概率

到这一步，聪聪就可以方便地用模型计算出在各种各样的条件下购买每种商品的概率了，为了能预测得更准确，还能再模型里面加入一些新的自变量，比如加入是否下雨/下雪，季节月份等因素。

使用多项逻辑回归模型来拟合数据，不仅能帮助我们做预测，它更加擅长的其实是帮助我们检验某个因素与因变量之间的关系是否具有统计显著性。这常常通过对回归系数假设检验来判定，在此之前，我们首先得要先弄明白模型的回归系数的意义。

由于多项逻辑回归的形式比之前的逻辑回归看起来复杂了n倍，为了不把大家绕晕，我们先关注与购买蓝莓概率有关的三个回归系数：

β0,蓝莓（即截距）= -1.526，β1,蓝莓：0.028，气温β2,蓝莓：0.072

我们顺便把它们对应的模型也晒出来：

首先，等式的左边代表的是蓝精灵购买披萨的概率与购买面包的概率之比例（或称两者的分对数）的对数值，它的值越大，就说明买蓝莓的概率与买面包的概率比值越大。

我们再来看看时间处于白天还是晚上如何影响买蓝莓的概率。在气温不变的情况下，

由于log(x)-log(y)=log(x/y)，

这说明白天的时候，买蓝莓与买面包的“概率比值”要比晚上稍微大一些，这里需要强调的是，我们不能简单地把结果解读为“白天时买蓝莓的概率比晚上大”，因为有可能晚上买蓝莓的概率其实比白天高，但是买面包的概率高得更多，于是出现两者比值减小等状况。

类似的，气温的回归系数可以解读为，在时间段相同的情况下，气温每增加10度，买蓝莓与买面包的概率比值会变成之前的e0.072×10=2.054倍。

总结上面的分析，我们可以看到，如果回归系数是正的，就代表买蓝莓的概率与买面包（参考类别）的概率比值随着自变量的增加而增加。

在上面的例子里，是否是白天对购买蓝莓和面包概率的分对数影响似乎并不大，如何才能知道它是否具有统计显著性呢？大多数统计软件在输出回归系的同时，也会返回回归系数的标准误差，与逻辑回归里的统计检验类似，我们可以借助Wald检验来判断回归系数是否具有统计显著性。

Wald检验利用了回归系数的拟合值与它的标准误差的比值近似于Z分布这一特性来计算p值。如果比值的绝对值大于1.96，就可以说回归系数具有统计显著性。这一集的数据得到的回归系数的统计检验结果如下表所示：

表3: 用多项逻辑回归模型拟合蓝精灵自动售货机交易数据得到的回归系数及其标准误差，以及用Wald检验计算出的p值

从表中的结果我们可以看出，蓝精灵们买蓝莓的概率与买面包等概率的比值在白天和晚上没有显著区别，而气温升高会使得蓝精灵们买蓝莓的概率与买面包等概率的比值显著升高。

看到这里，有些读者可能会疑惑，为什么讨论来讨论去都是买蓝莓的概率与买面包的概率比值，而不是买蓝莓的概率p蓝莓，后者不是我们更关心的吗？

在逻辑回归里面，我们可以用回归系数除以4的法则来方便地估计自变量对y=1概率的影响的最大值，多项逻辑回归可就没有这个捷径了，这是多项逻辑回归本身的一种局限。下面我们稍微解释一下为什么会是这样。

在本集的例子里面，自变量与因变量取特定值的概率之间的关系由下面计算的公式决定：

观察等式右边的分母，我们会发现所有的回归系数都包含在了其中，这就是说，气温p蓝莓对的影响，并不仅仅由回归系数β2,蓝莓的取值决定，而是由模型的所有九个回归系数共同决定。

这可是与在二分类逻辑回归有着本质的区别！下面我们借助图示来给大家进行对比，加深理解：

图1 上图表示地理位置与教育程度对投票决策的影响。红色、蓝色、黑色曲线分别代表海边村、山上村、林间村的选民，使用的是二元变量的逻辑回归模型，详情见《线性回归能玩多变量，逻辑回归当然也能》；下图表示气温来购买蓝莓的概率的影响，蓝色代表白天，黑色代表晚上，使用的是多项逻辑回归模型。

左图的红，蓝，黑三条曲线之间是相互平行的，这说明，在二元变量的逻辑回归模型中，在y=1的概率为0.5或者其它一个特定值时，改变自变量对因变量的影响只与这个自变量本身的回归系数有关。

另外一方面，右图中的两条曲线并不平行，即改变气温对购买蓝莓的概率的影响还与另外一个自变量“是否是白天”的取值有关。另外，图中黑色和蓝色曲线的形状也不仅仅由βi,蓝莓决定，而是所有的回归共同决定，详细的数学证明在这里先忽略。

综合上面关于多项逻辑回归的回归系数解读的讨论，不难发现多项逻辑回归的回归系数只能方便地解释为对因变量y=特定类别的概率与y=参考类别的概率的比值，而无法直接对应到对y=特定类别的概率本身的影响，我们在选参考类别的时候，需要考虑到这一点。

作者：田菊

编辑：鹅不食草

质控：粉条儿菜

发表于: 2018-01-052018-01-05 20:41:07
原文链接：http://kuaibao.qq.com/s/20180105G0WUBT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

让人眼花缭乱的多项逻辑回归，原来是这么用的

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐