数据挖掘能做什么
数据挖掘通常可以完成数据总结、分类、关联、聚类等若干主要任务。
·数据总结
数据总结是对数据的基本特征进行概括。通过数据总结,不仅能够实现对数据多维度多层次的汇总,还能够得到数据分布特征的精确概括。
可利用数据仓库OLAP技术进行数据的多为查询汇总,也可通过基本统计方法计算测度数据分布的集中趋势、离散程度以及分布对称性和陡缓程度。
·分类
分类的主要目的是通过向数据“学习”,分析数据不同属性之间的联系,得到一种能够正确区分数据所属组别的规律,即通过“学习”建立一种包含分类规律的分类模型,且该模型能够对新数据所属的组别进行自动预测。
常用的分类方法有机器学习中的决策树、神经网络,以及统计学的Logistic回归、判别分析等。评价分类模型的重要方面是分类预测的准确性。
·关联
关联就是通过数据分析,找到事物之间的相互关联规则,包括简单关联规则和时序关联规则。
关联分析中,通常并不知道关联性是否确实存在,因此关联分析所生成的规则是带有一定置信度的,它度量了关联规则的强弱。
常用的关联分析方法是机器学习中的关联规则等。
·聚类
聚类是一种在没有先验知识的条件下,根据某种相近程度的度量指标,对数据自动进行子集划分的技术。所形成的子集合内部数据的结构特征相近,而不同集合之间的数据结构特征有较大差异。
常用聚类方法有层次聚类、K-Means聚类以及两步聚类、Kohonen聚类等。
数据挖掘的算法分类
算法是数据挖掘模型的核心,由于数据挖掘具有交叉学科的色彩,因此其算法也丰富多彩。可以从不同角度对数据挖掘算法的分类做简单概括。
·根据算法分析数据的方式划分
(1)假设检验型算法
该类算法通常应首先提出某个理论假说,然后利用所收集的数据去证实假说。如果数据不能充分证实假说,则应拒绝假说,反之则不能拒绝假说。
假设检验型算法的本质是一种从一般原理推出个别结论的验证型方法。
(2)知识发现型算法
该类算法一般不对数据和结论提出假设,而是通过对数据的分析发现数据中隐含的事先并不知道的规律。可见,知识发现型算法是一种从个别数据中归纳得出一般性结论的探索性分析方法。但由于这种分析方法的自身特点,使得一般性结论的推广要更慎重。
·根据算法来自的学科类型划分
(1)机器学习算法
(2)统计学算法
经典统计学方法与机器学习思路有类似的方面,同时它更强调模型的先期假设和后期验证。
·根据算法所得到结果的类型划分
(1)直接型数据挖掘算法
直接型数据挖掘是一种“黑匣子”式的数据分析方式。其核心任务是根据已有数据,建立分类模型,并通过模型实现对新数据对象的分类等。因此,这种分析算法重点关注的是模型的分类预测精度。
(2)间接型数据挖掘算法
间接型数据挖掘是一种“半透明”式的数据分析方式。其核心任务是根据已有数据,建立数据的描述模型,并通过描述模型展现数据的特征和规律,揭示数据中隐藏的规律和关系。与直接型数据挖掘相比,间接型数据挖掘算法中一般没有特定的分类预测目标变量。因此,它更关注对数据内在联系和结构的展现程度。
·根据学习过程的类型划分
(1)有指导
有指导的学习算法通常应用在分类问题中,核心目标是实现对新数据的分类预测。而分类预测模型一定是建立在对历史数据学习的基础上的,因此历史数据就是一位“老师”,它始终指导着模型的建立和评价。
(2)无指导
无指导的学习算法通常应用在数据内在关系和结构的剖析问题中。由于这些关系和结构是事先未知的,所以学习过程是无“老师”参与的。
领取专属 10元无门槛券
私享最新 技术干货