【数据挖掘】大数据知识之数据挖掘

陆勤_数据人网

发布于 2018-02-26 13:28:55

1.5K0

发布于 2018-02-26 13:28:55

文章被收录于专栏：数据科学与人工智能

从市场需求及应用的角度来看，通过对大数据的存储、挖掘和分析，大数据在管理、营销、数据标准化等领域大有可为，促使管理/服务水平提升、营销方式改进等。下面我们就来讲讲数据挖掘的那些事。

基本概念

数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。

还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。

基本技术

1统计学

统计学虽然是一门“古老的”学科，但它依然是最基本的数据挖掘技术，特别是多元统计分析，如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。

2聚类分析和模式识别

聚类分析主要是根据事物的特征对其进行聚类或分类，即所谓物以类聚，以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外，近些年来模糊聚类和神经网络聚类方法也有了长足的发展。

3决策树分类技术

决策树分类是根据不同的重要特征，以树型结构表示分类或决策集合，从而产生规则和发现规律。

4人工神经网络和遗传基因算法

人工神经网络是一个迅速发展的前沿研究领域，对计算机科学人工智能、认知科学以及信息技术等产生了重要而深远的影响，而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习，形成描述复杂非线性系统的非线性函数，这实际上是得到了客观规律的定量描述，有了这个基础，预测的难题就会迎刃而解。目前在数据挖掘中，最常使用的两种神经网络是BP网络和RBF网络不过，由于人工神经网络还是一个新兴学科，一些重要的理论问题尚未解决。

5规则归纳

规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律，这大致包括以下几种形式：IF … THEN …

6可视化技术

可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术，为了方便用户理解和使用这类技术，必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等，否则很难推广普及数据挖掘技术。

实施步骤

1理解业务

从政府/企业的角度理解项目目标和需求，将其转换成一种数据挖掘的问题定义，设计出达到目标的一个初步计划。

2理解数据

收集初步的数据，进行各种熟悉数据的活动。包括数据描述，数据探索和数据质量验证等。

3准备数据

将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择，数据转换和数据清理等。

4建模

选择和应用各种建模技术，并对其参数进行优化。

5模型评估

对模型进行较为彻底的评价，并检查构建模型的每个步骤，确认其是否真正实现了预定的商业目的。

6模型部署

创建完模型并不意味着项目的结束，即使模型的目的是为了增进对数据的了解，所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告，也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。

应用现状

人工智能研究领域的科学家普遍认为，下一个人工智能应用的重要课题之一，将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题，但它所固有的为企业创造巨大经济效益的潜力，已使其很快有了许多成功的应用，具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。

数据挖掘是一个新兴的边缘学科，它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进，使得这一新学科得以蓬勃发展，而且已初具规模。

至于数据挖掘的未来，让我们拭目以待。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-09-18，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据

数据挖掘

本文分享自数据科学与人工智能微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

大数据

数据挖掘

登录后参与评论

0 条评论

热度

【数据挖掘】大数据知识之数据挖掘

【数据挖掘】大数据知识之数据挖掘

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐