首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘是什么?

作为一个新兴的多学科交叉产生的概念,数据挖掘(DataMining)的定义有若干个版本,因为数据挖掘是一个很宽泛的概念。它一般是指从海量的数据中运用相应的算法分析,挖掘隐藏于其中有价值(未知的、有规律的)的信息的复杂过程。许多人把数据挖掘看作是为另一个常用的术语“KDD”的同义词。而另一些人只是把数据挖掘看作是KDD过程的一个基本步骤。KDD(Knowledge Discovery in Database)直译为基于数据库的知识发现,是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的过程。

KDD(知识发现)过程示意图

整个知识发现过程是由若干步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有:

注:知识发现的前提是明确业务需求。这里要注意两点:一是全面,我们要对业务的需求有全面的理解;二是我们所理解的业务需求是经过认可的,而不是自己的猜测。明确业务需求虽然是业务核心,但这里暂不讨论,因为我们探讨的重点是原理与实现。所以后续我们假定所有的业务需求都已经明确。

1,数据清洗与集成:通过业务需求确定目标数据,根据从原始数据库(多数据源中)中选取相关数据或样本。将来自多数据源中的相关数据组合到一起;检查数据的完整性及一致性,消除噪声及与数据挖掘明显无关的冗余数据,同时利用统计等方法填充丢失的数据。

2,数据选择与转换:将去噪、填充等操作后的数据进行转换与衍生(数据再处理),转化可以直接进行数据挖掘操作的数据存储形式;

3,数据挖掘:数据挖掘是知识发现的核心步骤,根据业务需求及目标,选取合适的模型(算法/参数等)进行数据模式或知识规律的探索挖掘;

4,模式评估:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。目的是根据一定评估标准从挖掘结果筛选出有意义的模式知识。

5,知识表示:将发现的知识以用户能了解的方式呈现给用户,就是利用BI等可视化技术,向用户展示所挖掘出的知识,规律及结论。

以上五个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这主要依赖每个阶段或阶段内部特定任务的输出是否为下一个阶段需要的或必须的输入。1996年总结出的KDD 5个基本步骤后, 各种不同的KDD过程模型在此基础上发展以及完善起来,其中,1999年提出的CRISP-DM模型(cross-industry standard process for data mining),即为"跨行业数据挖掘标准流程"。在各种KDD过程模型中占据领先位置。

CRISP-DM过程模型

商业理解:也就是前文的“注”,必须从商业的角度了解业务的背景,业务需求,以及业务目的,并将这些业务逻辑与数据挖掘的定义与结果结合起来。数据理解:此阶段为收集数据与熟悉数据的工作。包括数据的来源,数据的长度,数据的类型以及数据间的逻辑关系。数据准备:对应于前文的“数据清洗与集成”和“数据选择与转换”。涵盖了从原始的粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。根据与挖掘的目标的相关性,数据质量等,在此阶段会进一步对数据进行清理转换,构造衍生变量,整合数据,数据标准化等操作。建立模型:对应于前文的“数据挖掘”。各种各样的建模方法将被加以选择和使用,通过建造,评估模型,参数的调整。此阶段一些建模方法对数据的形式有具体的要求,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。模型评估:在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了业务目标。这里从两个方面着手,一是从数据和模型本身进行评估,比如数据质量对结果的影响,模型的稳定性和精确性程度是否满足业务需求;二是从业务逻辑进行评估与解释,从业务直觉进行判定,模型结果是否符合业务逻辑。方案实施:模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求的不同,将发现的结果以及过程组织成为可读文本形式(数据挖掘报告),或者是将模型输出的规则部署在系统中(系统开发)。

下一篇分享机器学习与数据挖掘的关系。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180330G07YES00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券