基于SAS软件的聚类分析——以10省市居民生活消费数据为例

中国有句谚语叫“”物以类聚,人以群分“”,刨除这句话的贬义部分来看,用来形容聚类分析再合适不过。聚类分析就是对物(人),根据其各自的特征进行分类的一种多元统计分析方法,同类(同群)之间的物品(人)的特征尽可能相似,不同类(同群)之间的物品(人)的特征尽可能不同。

聚类分析的基本流程为根据样品的多个观测指标,找出能够度量样品之间相似度的统计量,然后以统计量为依据,将关系密切的样本归类到一个小的分类单位,关系疏远的归类到一个大的分类单位,直到将所有样本聚合完毕,形成一个由小到大的分类系统。

在整个聚类分析的过程中主要有以下四大特点:

(1)聚类分析的对象是物(人),即样本;

(2)聚类分析是根据物(人)的特征来进行聚集的,选取的特征不一样,聚类的结果也会存在差异;

(3)聚类分析的关键点在于度量样本的相似性;

(4)聚类分析结果的好坏没有统一的评判标准;

从聚类分析的定义中不难看出,其作用主要是对样本的归类,运用到现实中即对用户的精准细分,方便企业为其提供有针对性的产品和服务。例如银行根据一定指标将用户划分为金卡用户、银卡用户和普通卡用户,这种分法一方面能很好的节约银行的资源,另外一方面也能针对不同的用户实行分级服务,提升用户体验。再比如移动开发的全球通、神州行和动感地带三个套餐或者品牌,实际就是根据用户的行为习惯做了很好的聚类分析。

从企业经营上看,目前被广泛应用的精准营销是企业扩大规模、提高用户体验的重要手段,而聚类分析所实现的用户细分正是精准营销的基础。

案例分析

本文以2012年北京、天津、上海、山东、河北、浙江、江苏、广东、黑龙江、河南10省市的城镇居民生活消费统计数据为例,通过聚类分析对10省市的消费类型进行分类。指标变量共8个,含义如下:

X1;人均食品消费支出 X2:人均衣着消费支出

X3:人均居住消费支出 X4:人均家庭设备及用品消费支出

X5:人均医疗保健消费支出 X6:人均交通和通信消费支出

X7:人均文教娱乐服务消费支出 X8:人均其它消费支出

SAS程序

data xiaofei;

input province $ X1-X8@@;

cards;

北京 7535.3 2638.9 1970.9 1610.7 1658.4 3781.5 3696.0 1154.2

天津 7343.6 1881.4 1854.2 1151.2 1556.4 3083.4 2254.2 899.9

上海 9655.6 2111.2 1790.5 1906.5 1016.7 4563.8 3723.7 1485.5

山东 5201.3 2197.0 1572.4 1126.0 1005.3 2370.2 1655.9 650.2

河北 4211.2 1542.0 1502.4 876.1 1047.3 1723.8 1203.8 424.6

浙江 7552.0 2109.6 1551.7 1161.4 1228.0 4133.5 2996.6 812.4

江苏 6658.4 1916.0 1437.1 1288.4 1058.1 2689.5 3077.8 700.1

广东 8258.4 1520.6 2099.8 1467.2 1048.3 4176.7 2954.1 871.3

黑龙江 4687.2 1806.9 1336.9 742.2 1180.71462.6 1216.6 550.5

河南 4607.5 1886.0 1190.8 1145.4 1085.5 1730.4 1525.3 562.1

;

run;

procclusterdata=xiaofei standardmethod=wardouttree=tree pseudo;

id province;

run;

proctreedata=tree horizontal;

id province;

run;

实验结果

在上图聚类历史中,聚类数表示新类别形成后类别的总数;连接聚类表明这一步合并了哪两个类;频数表示这次合并得到的类包含几个样品,例如第一行表示聚为9类,合并了河北和黑龙江两个地区,第二行表示聚为8类,合并了河北、黑龙江、河南三个地区。

通过观察半偏R²、R²、伪F统计量、伪t²分析出分类的个数,半偏R²的最大值与次大值分别为聚类数为3、4的时候,说明分为3或4类较好;R²在聚类为2、3时差距较大,说明分为2或3类较好;伪F统计量整体差距不明显;伪t²的最大值与次大值出现在聚类为1、2时,说明分为2类较好。

结合聚类历史和聚类谱系图,将10省市分为3个类别较合适,第一类为北京、上海,地区经济十分发达,居民消费支出超过其他两类;第二类为天津、浙江、江苏、广东,东部沿海省份,经济发达,居民消费支出较高;第三类为山东、河北、黑龙江、河南,地区经济发展较其他两类存在一定差距,居民消费支出也相对落后。

本文分享自微信公众号 - AI机器思维(jiqisiwei)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励