多项分类Logistic回归分析的功能与意义
遇到因变量有多个取值而且无大小顺序的情况,比如职业,婚姻状况等等,这时需要多项分类Logistic回归。
相关数据
视力低下情况与年龄、性别之间的关系
分析过程
分析-回归-多项Logistic
结果分析
(1)模型拟合信息和伪R方
伪决定系数不高不低,p值说明模型很显著
(2)模型引入自变量后的输出结果
第一部分是模型的似然比检验,显著性水平都比较高,p值都小于0.05
第二部分是多项反应logit模型的参数,假设检验结果,优势比置信区间,是多项回归模型的主要结果。
模型综述
G1=LOG[P(低下轻度)/P(低下重度)]=34.338-2.112*年龄+21.272*性别1
G2=LOG[P(低下中度)/P(低下重度)]=20.974-1.277*年龄+20.540*性别1
G3=0
计算视力低下程度为轻度,中度,重度的概率:
P(Y1)=exp(G1)/[EXP(G1)+EXP(G2)+EXP(G3)]
P(Y2)=exp(G2)/[EXP(G1)+EXP(G2)+EXP(G3)]
P(Y3)=exp(G3)/[EXP(G1)+EXP(G2)+EXP(G3)]
通过分析可知,模型拟合优度一般,可决系数不高不低,总体模型显著性较好,p值0.008远小于0.05.
最优尺度回归分析的功能与意义
自变量为分类变量的时候,比如收入级别,学历等等,通常做法是直接将各个类别定义取值为等距连续整数,但是等距的假设显然有些草率,最有尺度回归便可解决这一问题。
相关数据
颜色偏好与年龄、性别、职业之间的关系。
分析过程
分析-回归-最佳尺度
结果分析
(1)案例处理汇总 模型汇总 方差分析
修正的可决系数0.231,模型解释能力差强人意
方差分析,p值0.002,非常显著。
(2)模型中的变量系数,变量的相关性和容差
各个系数在置信度5%很显著。
重要性分析表明年龄和性别对颜色偏好影响大,职业影响很小。
容差表示变量对因变量影响中不能被其他自变量所解释的比例,越大越好。
(3)原始变量类别与变换后评分的对应图
经过标准变换,没有改变各数据间的差异
模型综述
颜色偏好=0.514*年龄+0.554*性别+0.385*职业