前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于SAS软件的聚类分析——以10省市居民生活消费数据为例

基于SAS软件的聚类分析——以10省市居民生活消费数据为例

作者头像
机器思维研究院
发布2019-06-10 15:25:38
1.1K0
发布2019-06-10 15:25:38
举报
文章被收录于专栏:AI机器思维AI机器思维

中国有句谚语叫“”物以类聚,人以群分“”,刨除这句话的贬义部分来看,用来形容聚类分析再合适不过。聚类分析就是对物(人),根据其各自的特征进行分类的一种多元统计分析方法,同类(同群)之间的物品(人)的特征尽可能相似,不同类(同群)之间的物品(人)的特征尽可能不同。

聚类分析的基本流程为根据样品的多个观测指标,找出能够度量样品之间相似度的统计量,然后以统计量为依据,将关系密切的样本归类到一个小的分类单位,关系疏远的归类到一个大的分类单位,直到将所有样本聚合完毕,形成一个由小到大的分类系统。

在整个聚类分析的过程中主要有以下四大特点:

(1)聚类分析的对象是物(人),即样本;

(2)聚类分析是根据物(人)的特征来进行聚集的,选取的特征不一样,聚类的结果也会存在差异;

(3)聚类分析的关键点在于度量样本的相似性;

(4)聚类分析结果的好坏没有统一的评判标准;

从聚类分析的定义中不难看出,其作用主要是对样本的归类,运用到现实中即对用户的精准细分,方便企业为其提供有针对性的产品和服务。例如银行根据一定指标将用户划分为金卡用户、银卡用户和普通卡用户,这种分法一方面能很好的节约银行的资源,另外一方面也能针对不同的用户实行分级服务,提升用户体验。再比如移动开发的全球通、神州行和动感地带三个套餐或者品牌,实际就是根据用户的行为习惯做了很好的聚类分析。

从企业经营上看,目前被广泛应用的精准营销是企业扩大规模、提高用户体验的重要手段,而聚类分析所实现的用户细分正是精准营销的基础。

案例分析

本文以2012年北京、天津、上海、山东、河北、浙江、江苏、广东、黑龙江、河南10省市的城镇居民生活消费统计数据为例,通过聚类分析对10省市的消费类型进行分类。指标变量共8个,含义如下:

X1;人均食品消费支出 X2:人均衣着消费支出

X3:人均居住消费支出 X4:人均家庭设备及用品消费支出

X5:人均医疗保健消费支出 X6:人均交通和通信消费支出

X7:人均文教娱乐服务消费支出 X8:人均其它消费支出

SAS程序

data xiaofei;

input province $ X1-X8@@;

cards;

北京 7535.3 2638.9 1970.9 1610.7 1658.4 3781.5 3696.0 1154.2

天津 7343.6 1881.4 1854.2 1151.2 1556.4 3083.4 2254.2 899.9

上海 9655.6 2111.2 1790.5 1906.5 1016.7 4563.8 3723.7 1485.5

山东 5201.3 2197.0 1572.4 1126.0 1005.3 2370.2 1655.9 650.2

河北 4211.2 1542.0 1502.4 876.1 1047.3 1723.8 1203.8 424.6

浙江 7552.0 2109.6 1551.7 1161.4 1228.0 4133.5 2996.6 812.4

江苏 6658.4 1916.0 1437.1 1288.4 1058.1 2689.5 3077.8 700.1

广东 8258.4 1520.6 2099.8 1467.2 1048.3 4176.7 2954.1 871.3

黑龙江 4687.2 1806.9 1336.9 742.2 1180.71462.6 1216.6 550.5

河南 4607.5 1886.0 1190.8 1145.4 1085.5 1730.4 1525.3 562.1

;

run;

procclusterdata=xiaofei standardmethod=wardouttree=tree pseudo;

id province;

run;

proctreedata=tree horizontal;

id province;

run;

实验结果

在上图聚类历史中,聚类数表示新类别形成后类别的总数;连接聚类表明这一步合并了哪两个类;频数表示这次合并得到的类包含几个样品,例如第一行表示聚为9类,合并了河北和黑龙江两个地区,第二行表示聚为8类,合并了河北、黑龙江、河南三个地区。

通过观察半偏R²、R²、伪F统计量、伪t²分析出分类的个数,半偏R²的最大值与次大值分别为聚类数为3、4的时候,说明分为3或4类较好;R²在聚类为2、3时差距较大,说明分为2或3类较好;伪F统计量整体差距不明显;伪t²的最大值与次大值出现在聚类为1、2时,说明分为2类较好。

结合聚类历史和聚类谱系图,将10省市分为3个类别较合适,第一类为北京、上海,地区经济十分发达,居民消费支出超过其他两类;第二类为天津、浙江、江苏、广东,东部沿海省份,经济发达,居民消费支出较高;第三类为山东、河北、黑龙江、河南,地区经济发展较其他两类存在一定差距,居民消费支出也相对落后。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI机器思维 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档