数据仓库和数据挖掘的结合为决策支持系统开辟了新方向,他们是商业智能的主要组成部分。
1、预测任务 根据某些属性的值,预测特定的属性值。将被预测的属性称为目标变量,将用于预测的属性称为说明变量。 2、描述任务 概括数据中潜在的联系模式。如,聚类、趋势、相关、异常、轨迹。 除此之外,还有聚类分析、预测建模、关联分析、异常检测四种主要的数据挖掘任务。
预测建模:将说明变量以函数方式进行建模。 预测建模的任务有2类:分类和回归。 分类:预测离散的目标变量;如,预测一个用户是否会在网上买书。该目标变量是一个二值。 回归:预测连续的目标变量;如,预测某股票的未来价格。该目标变量(价格)是个连续属性。
但是,无论哪个任务,它们的任务都是训练一个模型,让目标变量的预测值与实际值之间的误差达到最小。 相关应用:预测顾客对产品促销活动的反应;根据检查结果判断病人是否患有某种疾病;等等。
关联分析:发现描述数据中强关联特征的模式。目标是以有效的方式提取最有趣的模式。 相关应用:识别用户一起访问的网页;找出具有相关功能的基因组;等等。
聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比较起来,属于同一簇的观测值相互之间尽可能类似。 相关应用:对相关顾客分组;等等。
异常检测:识别其特征显著不同于其他数据的观测值(异常点/离群点)。目标是发现真正的异常点,避免错误地将正常的对象标注为异常点。 相关应用:检测欺诈;网络攻击;等等。