前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >SPSS Modeler用K-means(K-均值)聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

SPSS Modeler用K-means(K-均值)聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据

作者头像
拓端
发布于 2025-03-10 13:16:32
发布于 2025-03-10 13:16:32
830
举报
文章被收录于专栏:拓端tecdat拓端tecdat

全文链接:http://tecdat.cn/?p=32840

随着经济的快速发展和城市化进程的不断推进,土地资源的利用和管理成为了一项极为重要的任务点击文末“阅读原文”获取完整代码数据)。

相关视频

而对于全国各省市而言,如何合理利用土地资源以及如何影响GDP,通过科学的方法进行规划和管理,是提高土地利用效率的关键。

本文旨在应用SPSS Modeler,帮助客户采用K-means(K-均值)聚类、CHAID、CART决策树等方法,对31个省市的土地利用情况数据进行分析和建模,以期提供科学有效的土地利用规划和管理策略。

31省市土地利用情况数据

数据流

本文使用的数据来自于国家统计局发布的31省市土地利用情况数据,选取31个省市作为研究对象,并选取了包括草地、耕地、园地、林地、水域和建设用地等7种土地类型的利用情况数据。然后,使用SPSS Modeler进行数据清洗、聚类、决策树等步骤,最终得到模型结果。

K-means(K-均值)聚类

在对完整的数据集进行初步分析后,本文采用K-means聚类算法对数据集进行聚类分析。在聚类过程中,我们首先需要确定聚类的个数k。根据肘部法则和轮廓系数法则,我们得出最终选择k=5为较为合适的聚类数目。通过SPSS Modeler的K-means节点进行计算,得到了以下聚类概况、聚类类别和散点图结果。

聚类概况

聚类类别

通过分类结果我们不难看出,同类省份基本上是相邻省份,或是区域类型(沿海、内陆)相似的省份,对于同类省份,我们可以采取相似的管理制度,使同等级省份得到更好的发展,也可以利用政策方式让高等级省份带动低等级省份发展。

CHAID决策树

在进行完K-means聚类分析后,为了更好地了解各个类别的特征和关系,本文使用CHAID决策树算法对数据集GDP的影响因素进行进一步的分析。首先使用SPSS Modeler的CHAID节点进行计算,得到以下变量重要性和决策树结果。

变量重要性

在CHAID决策树算法中,我们使用卡方值(χ2)来表征每个变量的重要性。具体而言,卡方值越大,则该变量在分类中起到的作用越大。在本文的分析中,最具有代表性的变量是园地、农用地和交通用地比重。

决策树结果

通过CHAID决策树算法,我们得到了以下的决策树模型。其中每个叶子节点代表一类,而每个内部节点包含了一个决策规则,用于判断不同属性值的记录应该属于哪一个分支。在决策树中房地产用地比重、建设用地比重和城市扩张程度等变量对分类结果有较大的影响。

模型误差

为了检验CHAID决策树模型的性能,我们采用随机抽样的方法将数据集分为训练集和测试集,然后利用训练集来训练模型,并使用测试集来验证模型的预测精度。

CART决策树:

除了使用CHAID决策树算法外,本文还采用了CART决策树算法对数据进行建模。通过SPSS Modeler的C&RT节点进行计算,得到以下变量重要性和决策树结构。

变量重要性

在CART决策树算法中,我们使用基尼指数(Gini Index)来衡量每个变量的重要性。具体而言,基尼指数越小,则该变量在分类中起到的作用越大。在本文的分析中,最具有代表性的变量是交通、建筑和工矿用地面积。

决策树结构

通过CART决策树算法,我们得到了以下的决策树模型。在该模型中,每个内部节点代表一个判断规则,而每个叶子节点代表一个分类。最终的分类结果与CHAID决策树模型比较相似,也可提供对土地利用管理的一些启示。

模型误差结果:

同样采用随机抽样的方法将数据集分为训练集和测试集,使用训练集训练模型,并使用测试集验证模型预测的准确性。

结论:

最终我们得到了以下结果文件:

本文旨在应用SPSS Modeler,采用K-means(K-均值)聚类、CHAID、CART决策树等方法,对31个省市的土地利用情况数据进行分析和建模,并为科学有效的土地利用规划和管理策略提供参考。通过聚类和决策树分析,我们得出以下结论:

1.不同省市的土地利用存在显著差异,按主要利用类型可分为5类;

2.交通、建筑用地面积比重是主要影响土地利用的因素;

3.通过CHAID和CART决策树算法,我们可以较精确地对不同地区的土地利用进行分类,并提出相应的管理建议。

本文的研究结论对于全国土地资源的利用和管理具有一定的参考价值,其方法也可以在其他领域中得到应用和推广。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
根据已有的车祸数据信息,计算严重车祸发生率最高和最低的地区;并对车祸发生严重程度进行因素分析,判断哪些外界环境变量会影响车祸严重程度,分别有怎样的影响。
拓端
2023/11/17
3060
数据分享|Python、Spark  SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
SPSS Modeler 介绍决策树
本文将通过 SPSS Modeler 介绍决策树 (Decision tree) 演算法于银行行销领域的应用实例。通过使用网路公开电销资料建立不同决策树模型,分析、解释并讨论模型结构,您将会了解各种决策树演算法及其不同之处,针对不同资料特征选择合适的决策树模型。 引言 随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用 IBM SPSS Modeler 进行实作,介绍决策树 (Decision t
学到老
2018/03/16
1.7K0
SPSS Modeler 介绍决策树
R语言K-Means(K-均值)聚类、朴素贝叶斯(Naive Bayes)模型分类可视化
分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来看的。
拓端
2023/05/10
7690
SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘
物流发货明细数据在现代物流业中扮演着至关重要的角色。通过对这些数据进行挖掘和分析,我们可以发现隐含在背后的供应链运营规律和商业模式,从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决策。
拓端
2023/05/31
5140
R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集|附代码数据
最近我们被客户要求撰写关于鸢尾花iris数据集的研究报告,包括一些图形和统计输出。
拓端
2023/02/24
1.8K0
SPSS Modeler决策树分类模型分析商店顾客消费商品数据
随着大数据时代的来临,数据挖掘和分析在商业决策中扮演着越来越重要的角色。商店的顾客消费行为数据是商业决策的关键信息之一,通过对这些数据的深入分析,可以更好地理解顾客的消费习惯和偏好,从而优化商品销售策略,提高销售业绩。
拓端
2024/01/26
4000
SPSS Modeler决策树分类模型分析商店顾客消费商品数据
SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享
在分析决策树算法的基础上,介绍了决策树神经网络和算法及其的构造,并使用该算法对淘宝店铺客户数据(查看文末了解数据免费获取方式)进行分类及对新客户类型预测,实现对商业数据中隐藏信息的挖掘,且对该挖掘模型进行了验证。
拓端
2025/01/10
1280
SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享
Come On!决策树算法!
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS 这两个工具,分别设计与实现了决策树模型的应用实例。 机器学习概念 机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度
小莹莹
2018/04/20
9320
Come On!决策树算法!
IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据
如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势。而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。
拓端
2022/12/06
5660
C4.5决策树及CART决策树
信息增益比本质: 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。惩罚参数:数据集D以特征A作为随机变量的熵的倒数。
用户10950404
2024/07/30
1150
C4.5决策树及CART决策树
Python与R语言用XGBOOST、NLTK、LASSO、决策树、聚类分析电商平台评论信息数据集
在当今数字化浪潮席卷的时代,电商市场的蓬勃发展犹如一部波澜壮阔的史诗,蕴藏着无尽的商业价值与潜力。电商平台积累的海量数据,宛如一座等待挖掘的宝藏,其中蕴含着消费者行为、市场趋势等宝贵信息。如何运用先进的数据分析技术从这些数据中提取有价值的见解,成为电商从业者和数据科学家们共同关注的焦点(点击文末“阅读原文”获取完整代码、数据、文档)。
拓端
2025/04/13
920
Python与R语言用XGBOOST、NLTK、LASSO、决策树、聚类分析电商平台评论信息数据集
从零开始学Python【35】--CART决策树(实战部分)
在《从零开始学Python【34】--CART决策树(理论部分)》期中我们介绍了有关CART决策树的构造和节点选择的理论知识,但理论终究需要实战进行检验。本文我们就从实战的角度,继续介绍CART决策树的实际应用。
1480
2019/05/21
1.1K0
决策树:使用SPSS分析银行拖欠货款用户的特征
前两文章,已经从理论上解释了构造决策树进行分类的做法。 下面将利用工具SPSS来实现决策树分类。 案例: 某银行收集了2064个银行货款客户的信息,并且标识出客户是否违约。现在银行想了解一下那些拖欠货款者的客户具体有哪些特征,并且想构建一个模型,用于评估新的货款者的拖欠货款风险的评估。 数据如下所示。 IBM SPSS Statistics工具是IBM推出的专业的用于数据分析和数据挖掘的工具,其中内置了大量的数据挖掘模型。决策树模型就在其中,点击菜单:分析à分类à树 打开决策配置界面。 第一步:
小莹莹
2018/04/19
1.3K0
决策树:使用SPSS分析银行拖欠货款用户的特征
『数据挖掘十大算法 』笔记三:K-means
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
百川AI
2021/10/19
5720
一文读懂K均值(K-Means)聚类算法
大数据文摘授权转载自数据派THU作者:王佳鑫 审校:陈之炎 概述 众所周知,机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。 监督学习常用于分类和预测。是让计算机去学习已经创建好的分类模型,使分类(预测)结果更好的接近所给目标值,从而对未来数据进行更好的分类和预测。因此,数据集中的所有变量被分为特征和目标,对应模型的输入和输出;数据集被分为训练集和测试集,分别用于训练模型和模型测试与评估。常见的监督学习算法有Regression
大数据文摘
2023/04/10
1.4K0
一文读懂K均值(K-Means)聚类算法
[机器学习算法]决策树引论和CART算法
决策树decision tree分类法是一种简单但广泛使用的分类技术。以是否贷款违约的二分类问题为例,当我们希望根据给定的训练集习得一个模型对新出现的贷款人进行分类时,经常需要从大量的贷款申请单中识别出来哪些贷款人是劣质的贷款人(容易拖欠贷款)。想象一下客户经理和助手针对一个贷款者进行的如下对话:
TOMOCAT
2020/06/09
6670
[机器学习算法]决策树引论和CART算法
IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据|附代码数据
而决策树算法是目前在进行数据分析时很常用的方法。本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。
拓端
2023/01/18
6100
R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。
拓端
2023/02/20
2740
CART决策树
CART全称为Classification and Regression Tree。
程序员一一涤生
2020/01/07
7650
CART决策树
决策树之ID3、C4.5、C5.0等五大算法及python实现
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/47617801
悟乙己
2019/05/28
2.7K0
推荐阅读
相关推荐
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档