确定权重方法之一:主成分分析

作者:数据小宇军

http://blog.sina.com.cn/s/blog_a032adb90101k47u.html

什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。权重越大则该指标的重要性越高,对整体的影响就越高。

权重要满足两个条件:每个指标的权重在0、1之间。所有指标的权重和为1。

权重的确定方法有很多,这里我们学习用主成分分析确定权重。

一、主成分基本思想:

图1 主成分基本思想的问与答

二、利用主成分确定权重

如何利用主成分分析法确定指标权重呢?现举例说明。

假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。调研采取4级量表,分值越大,满意度越高。现回收有效问卷2000份,并用SPSS录入了问卷数据。部分数据见下图(详细数据见我的微盘,下载地址为http://vdisk.weibo.com/s/yR83T)。

图2 主成分确定权重示例数据(部分)

1、操作步骤:

Step1:选择菜单:分析——降维——因子分析

Step2:将4项评价指标选入到变量框中

Step3:设置选项,具体设置如下:

2、 输出结果分析

按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:

表1 KMO 和 Bartlett 的检验

表1是对本例是否适合于主成分分析的检验。KMO的检验标准见图3。

图3 KMO检验标准

从图3可知,本例适合主成分分析的程度为‘一般’,基本可以用主成分分析求权重。

表2 解释的总方差

从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

表3 成份矩阵

从表3可知第一主成分与第二主成分对原来指标的载荷数。例如,第一主成分对实体店的载荷数为0.957。

3、确定权重

用主成分分析确定权重有:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化

因此,要确定指标权重需要知道三点:

A 指标在各主成分线性组合中的系数

B 主成分的方差贡献率

C 指标权重的归一化

(1)指标在不同主成分线性组合中的系数

这个系数如何求呢?

用表3中的载荷数除以表2中第1列对应的特征根的开方。

例如,在第一主成分F1的线性组合中,实体店的系数=0.957/(2.775)1/2 ≈0.574。

按此方法,基于表2和表3的数据,在excel中可分别计算出各指标在两个主成分线性组合中的系数(见图4,其中SQRT表示开方)

图4 各指标在两个主成分线性组合中的系数

由此得到的两个主成分线性组合如下:

F1=0.574χ1-0.019χ2+0.574χ3+0.583χ4

F2=-0.048χ1+0.996χ2+0.010χ3+0.070χ4

(2)主成分的方差贡献率

表2中“初始特征值”的“方差%”表示各主成分方差贡献率,方差贡献率越大则该主成分的重要性越强。

因此,方差贡献率可以看成是不同主成分的权重。

由于原有指标基本可以用前两个主成分代替,因此,指标系数可以看成是以这两个主成分方差贡献率为权重,对指标在这两个主成分线性组合中的系数做加权平均。

说得有些晦涩,我们来举个例子。按上述思路,实体店χ1这个指标的系数为:

这样,我们可以用excel计算出所有指标的系数(见图5)

图5 所有指标在综合得分模型中的系数

由此得到综合得分模型为:

Y=0.409χ1+0.251χ2+0.424χ3+0.446χ4

(3)指标权重的归一化

由于所有指标的权重之和为1,因此指标权重需要在综合模型中指标系数的基础上归一化(见图6)

图6 指标权重的确定

图6显示了我们基于主成分分析,最终所得到的指标权重。

用主成分分析来确定权重,你学会了吗?

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-03-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Deep learning进阶路

深度学习论文(八)---DeepLabV1-SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED C

注:本篇算是半讲解半翻译吧,我真的觉得这篇论文写的很难理解.......可能是我水平不够,也可能作者省略了一些具体信息,主要是提供了他的idea吧。 但是De...

7111
来自专栏新智元

LeCun 提出基于能量的生成对抗网络,ICLR-17 重新审视 GAN

【新智元导读】LeCun对对抗生成网络(GAN)的盛赞大家都很熟悉了。在这篇新的论文中,LeCun等人将两类无监督学习方法——GAN和自编码器结合在一起,并从替...

4399
来自专栏王小雷

Spark学习之基于MLlib的机器学习

Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作...

2705
来自专栏数据派THU

手把手教你用Python库Keras做预测(附代码)

当你在Keras中选择好最合适的深度学习模型,就可以用它在新的数据实例上做预测了。但是很多初学者不知道该怎样做好这一点,我经常能看到下面这样的问题:

1987
来自专栏机器学习算法原理与实践

用scikit-learn学习主成分分析(PCA)

    在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维...

972
来自专栏CSDN技术头条

基于Keras/Python的深度学习模型Dropout正则项

dropout技术是神经网络和深度学习模型的一种简单而有效的正则化方式。 本文将向你介绍dropout正则化技术,并且教你如何在Keras中用Python将其应...

3029
来自专栏新智元

【干货】苹果 AI 负责人 Russ Salakhutdinov 最新演讲:深度生成模型定量评估(56 PPT)

【新智元导读】Russ Salakhutdinov 是苹果 AI 研发负责人,CMU 教授,也是著名的机器学习领域大牛。本文是 Russ 有关评估深度生成模型的...

3656
来自专栏刘笑江的专栏

Factorization Machine

1344
来自专栏ATYUN订阅号

用Keras进行深度学习模式的正则化方法:Dropout

Dropout是神经网络和深度学习模型的简单而有效的正则化技术。 在这篇文章中,你将发现Dropout正则化技术,以及如何使用Keras将其应用于Python中...

4005
来自专栏大数据挖掘DT机器学习

R语言主成分和因子分析

主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 探索性因子分析(EFA)是一系列用来发现一组变...

4454

扫码关注云+社区