首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘基础

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。

数据挖掘建模过程包括定义挖掘目标、数据取样、数据探索、数据预处理、数据建模和模型评价。

定义挖掘目标

我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定想干什么。

数据取样

抽取数据的标准包括:相关性、可靠性和有效性,而不是动用全部数据,同时进行数据取样,一定要严把质量关。衡量数据质量的标准如下:资料完整无缺,各类指标项齐全,同时数据准确无误,反应都是正常状态下的水平。

数据探索

当我们拿到一个样本数据集后,首先看样本中有没有明显的规律;有没有异常数据;属性之间有什么相关性;可以怎样分类进行探索,主要包括:异常值分析、缺失值分析、相关分析和周期性分析等。

数据预处理

采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据必须进行预处理,一般包括:数据筛选、数据变量转换、坏数据处理、缺失值处理、数据标准化、主成分分析、属性选择和数据规约等。

挖掘建模

样本抽取完成之后,采用分类、聚类、关联规则、回归和时序模型等对数据进行建模,包括模式发现、构建模型和验证模型等。

模型评价

模型评价的目的就是从这些模型中自动找出一个最好的模型,另外根据业务对模型进行解释与应用。包括设定评价标准、多模型进行对比和模型优化。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180509G19J8Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券