首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

逻辑回归能摆平二分类因变量,那……不止二分类呢?

说人话的统计学

通过前面的五期「说人话的统计学」专栏,我们已经把逻辑回归的基本理论知识和应用技巧讨论了一遍。相信大家已经了解,逻辑回归能帮助我们解决的,是因变量有且只有两种类别的问题,比如我们之前例子里,一场选举中选民投票给两位候选人中的哪一位。通过逻辑回归,我们可以研究各种自变量与我们关心的二分类因变量之间的相关关系,而这些自变量既可以是二分类的(如性别),也可以是多分类的(如职业),还可以是连续的(如收入、教育程度)。

毫无疑问,这个世界上有不少问题的答案就是非此即彼的,因而逻辑回归的用途很广泛。尤其在医学领域,诸如是否患有某种疾病,某个疗法是否有效,这些几乎就是医学研究和实践的核心问题。运用逻辑回归,我们可以把病人的各种指标作为自变量,从而对疾病的风险因素、药物或手术的适应症等问题进行严谨的研究。

但是,同样也有很多其他我们关心的事情,其结果不一定只有两种情况。比方说,你辗转反侧地琢磨你暗恋多时的女神究竟对你有没有意思,可别傻乎乎地掰起花瓣儿「她爱我、她不爱我、她爱我……」了!谁知道除了这两种情况以外,是不是还有「想和你暧昧」「想拿你当备胎」「想培养你当男闺蜜」之类的其他可能性呢?

换回一张正经脸,实际工作和科研中同样存在类似的多分类(多于两种类别)问题。我们曾经在《数据到手了,第一件事该干啥?》里讲过,多分类变量可以进一步分成两种:名义变量(nominal variable)和定序变量(ordinal variable)。名义变量的不同分类是没有顺序可言的,比如说基因型、疾病的分型等;而有定序变量的不同分类则有逻辑上的顺序,比如客户满意度调查中的选项「非常不满意」「不满意」「一般」「满意」「非常满意」。现在我们的问题是,如果因变量是多分类变量,那么要用怎样的统计学模型研究与其相关的因素?多分类因变量的类别有或无顺序时,方法是否有所不同?

对于第二个问题的答案,也许你已经猜到,对付这两种情形,的确要用到不太一样(但是颇有共通之处)的方法。我们今天就先来讨论一下,当因变量的类别没有顺序(即为名义变量)时,要建立怎样的统计学模型。

既然多分类是二分类的拓展和延伸,那么我们就从已经熟悉的逻辑回归模型出发,来找找灵感:

这条式子大家已经看过许多遍了,右边与线性回归相似,是一堆自变量xi(i=1,2,…,k)的线性叠加(注意xi不仅可以是单个自变量,也可以是若干其他自变量的交互作用,例如x3·x5),对应的回归系数βi(i=1,2,…,k)代表各自对因变量的效应大小,当然还有一个我们通常不太关注的截距β。而左边呢,p代表了在两个可能的类别中,因变量为某一个事先选定的类别(比如男/女中的女)的概率。

注意式子左边对数里头的分母1-p,它代表了什么?当因变量只有两个可能的类别时,既然p是取其中一个类别(称为类别1)的概率,那么1-p自然就是另一个类别(称为类别2)的概率了。也就是说,我们可以把前面的模型写成

这样一来,我们就更能清楚地看到,这个模型描绘的是因变量取两个类别的概率的比值。因此,对于逻辑回归来说,回归系数βi描述了当其他自变量都保持不变,而自变量增加时,因变量在类别1和2之间的「倾向性」的变化。更具体地说,如果βi是正数,则xi越大,因变量更可能取类别1;如果βi是负数,则xi越大,因变量更可能取类别2。

现在,我们将踏出关键的一步——类别只有不止两个的时候呢?比如说,5个类别?

在这种情况下,我们5个类别之间两两比较有多少不同的组合?这个可就多了(回忆一下高中时学过的组合数,5选2一共有10种组合),但我们并不需要穷尽所有的组合。一种方便的做法是,选定一个类别固定做分母(比如说类别5,称其为「参考类别」),然后让剩下的类别轮流做分子,因此有,,,四个比例。

为什么这样就够了呢?首先,有了这四个比例,所有涉及类别5的组合就都照顾到了。其次,如果我们要关心不涉及类别5的组合,比如说,那又怎么办呢?好办,我们只需拿除以,把分母上共同的类别5消掉,就能得到了。因此,我们只需要对,,,这四个比例建立统计模型,就能够全方位地覆盖这5个类别之间的概率比例关系了。究竟选哪个类别做参考类别,其实不影响模型得到的结论,但回归系数的解读会有所不同,这一点我们以后还会有进一步的阐释。其实,这里的思想和《线性回归能玩多变量,逻辑回归当然也能!》里面的「哑变量」方法是一脉相承的,只不过哑变量是对名义变量作为自变量时的处理方式,而我们今天讲的是名义变量做因变量时的建模方法。推广到一般情形,如果因变量有k种分类,那么我们需要对k-1个比例关系进行建模。

既然如此,我们就依葫芦画瓢,按照一般的二分类逻辑回归模型的样子,写出关于上面的四个比例的模型(注意,为了简明起见,下面我们省去了关于第几个数据点的下标,但是我们仍要记住,对于每一个数据点,自变量x1,x2,x3,… xk取值不同,各等式左边的p类别1,p类别2,…p类别5也会不同):

其中,等式最右边用了求和符号,只是为了把中间一长串的β0,类别1+β1,类别1x1+β2,类别1x2+…+βk,类别1xk之类写得简单一些,而且对后续的表述会有帮助。

很容易看到,这几条式子与二分类的逻辑回归模型很相似,这样的一组模型,称为「多项逻辑回归」(multinomial logistic regression)。需要着重点出的是,在多项逻辑回归里,因变量除了参考类别以外的每一个类别,都拥有自己的一套回归系数,因此,大家会注意到,回归系数不像以前那样只有一个对应自变量xi的下标i。在本文中,各个β下标的第一部分依然表明该回归系数对应于哪一个自变量,而第二部分则表示该回归系数对应的是因变量的哪一个类别(在上面的式子中用红色标出) 。比如说,β2,类别3对应于自变量x2和类别3,它的意义是,当自变量x2增长一个单位、而其他自变量保持不变时,因变量取类别3的概率与取类别5的概率之比例的对数值(或称两者的分对数)会相应发生多少变化。推广到一般情况,如果我们有k个自变量,因变量总共有m个类别(包含选做参考类别的那一个)的话,多项逻辑回归模型里就一共包含(m-1)(k+1)个回归系数(含截距)。

根据上面的模型,我们还可以进一步推出,对于任何一个数据点,如果我们知道了它所有自变量x1,x2,x3,… xk的取值,那么它的因变量取各个不同类别的可能性(概率p类别j)是多少。根据对数的定义,前面的四条式子可以变成:

别看右边e的幂那么一大堆很复杂的样子,现在我们关心的是p类别1,p类别2,p类别3,p类别4,p类别5,所以其他的都可以看成是常数。此时,简单做个移项,把左边的分母都挪到右边去,我们就能发现,这四条式子只不过是类似于y=0.3x,z=1.2y 那样简单的一次方程组而已:

既然是一次方程组,我们知道,要能解得出来,有几个未知数就要有几个方程。现在我们有5个未知数p类别1,p类别2,p类别3,p类别4,p类别5,可是上面只有四个方程。缺了一个怎么办呢?仔细想想,其实对于这5个未知数,还有一个条件我们没用上:因为已经知道因变量y只可能取这5个类别中的一个,没有别的可能,那么这5个概率加起来一定是1:

p类别1+p类别2+p类别3+p类别4+p类别5=1

这下好了,5个未知数,5个一次方程,我们可以解出:

看着满眼的符号很吓人吧?其实都是纸老虎,仔细看看其实你会发现,翻来覆去都是那几项,而且计算机和统计学软件会帮我们打点一切。关键在于,对于任何一个数据点,把自变量x1,x2,x3,… xk的具体数值代入到上面的式子里,我们就能用各个回归系数βi,类别j(i=1,…,k; j=1,…,m)表示出p类别1,p类别2,p类别3,p类别4,p类别5。这个数据点的因变量y是哪个类别,那么相应的那一个

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171221G0VKNR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券