面对山一样高的,海一样广的数据,我们该怎么办?
数据挖掘中的5W问题
❶为什么要使用数据挖掘?
❷数据挖掘是什么?
❸谁在使用数据挖掘?
❹数据挖掘有哪些方法?
❺数据挖掘使用在哪些领域?
百度百科中关于数据挖掘的定义如下:
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示。
数据挖掘主要构建四大类模型:分类、聚类、预测及关联。
分类
聚类
预测
关联
数据挖掘是BI领域的一个重要方向
BI通过对行业的认知、经验,结合数学理论、管理理论、市场营销理论,利用工具软件、数学算法(如:神经网路、遗传算法、聚类、客户细分等)对企业的数据、业务、市场进行分析及预测,以图表、数据分析报告的形式支撑企业决策、市场营销、业务拓展、信息运营等工作。
数据+人+工具+算法+知识+预测=商业智能(BI)
数据挖掘在电信行业的应用:
❶ 如何发现电信客户的特征和分类
❷如何预测哪些即将流失的客户
❸ 如何评价客户的贡献价值
❹如何判断客户的欺诈行为特征
❺如何发掘我的潜在客户
❻如何对欠费/坏账进行预测和控制
❼大客户的消费行为特征是什么,人口统计学特征是什么
❽如何知道公司未来一段时间收入情况,及某一收入因子对整个收入的影响指数
……还有更多
2、数据挖掘建模方法
数据挖掘建模建模方法简介
数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确实施数据挖掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型,如下图所示:
其中,SEMMA、5A及CRISP-DM过程模型如下各图示例
数据挖掘建模步骤1-商业理解
商业理解:理解商业目标和业务需求,幵转化为数据挖掘的问题定义。
常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。
数据挖掘建模步骤2-数据理解
数据理解:筛选所需数据,校验数据质量,了解数据含义及特性。
数据理解,顾名思义就是基于对业务问题的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。
数据挖掘建模步骤3-数据准备(1)
数据挖掘建模步骤3-数据准备(2)
数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。
数据挖掘建模步骤4-模型建立
根据建模场景进行算法选择:如描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法 。
数据挖掘建模步骤5-模型评估
模型评估目的在于:什么样的模型是有效的?模型的实际应用效果如何?
根据样本数据,模型结果实际效果反馈数据迚行模型评估。
数据挖掘建模步骤6-模型发布
聚焦业务问题提供端到端的专题解决方案;
提高数据挖掘应用的效果和价值。
数据挖掘建模步骤7-模型优化
3、数据挖掘算法介绍
1)、聚类分析
2)、分类(决策树)
3)、预测(BP神经网路)
BP神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的一般计算能力,而且还具有处理知识的思维、学习、记忆能力。
在数据挖掘中经常利用神经网络的学习、记忆、模型工能进行一些预测。
基于神经网络的数据挖掘过程由数据准备、规则提取和规则应用、预测评估四个阶段组成。其中,规则提取是我们模型预测的核心。
4)、预测(回归)
5)、关联规则
6)、数据处理(主成分/因子分析)
7)、指纹算法
重入网识别技术-呼叫指纹算法
“呼叫指纹”,用户在使用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对稳定的,且存在个体差异。
重入网识别依据:利用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判断为统一用户的的概率越大。
4、数据挖掘应用案例
1)、流失预警模型
客户流失预警模型的建设目的是提前预测客户的流失可能性,根据客户特征对客户进行分群、建模,筛选出可能即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的使用效率,降低客户流失率。
2)、用户真实性识别模型
根据用户入网以后的使用行为、使用位置、缴费特征等识别出虚假用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚假用户的防范措施,欠真实性用户的补救措施 。
3)、客户细分模型