☞【PPT】数据挖掘方法及案例介绍

1、数据挖掘的引入

面对山一样高的,海一样广的数据,我们该怎么办?

数据挖掘中的5W问题

❶为什么要使用数据挖掘?

❷数据挖掘是什么?

❸谁在使用数据挖掘?

❹数据挖掘有哪些方法?

❺数据挖掘使用在哪些领域?

百度百科中关于数据挖掘的定义如下:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示。

数据挖掘主要构建四大类模型:分类、聚类、预测及关联。

分类

聚类

预测

关联

数据挖掘是BI领域的一个重要方向

BI通过对行业的认知、经验,结合数学理论、管理理论、市场营销理论,利用工具软件、数学算法(如:神经网路、遗传算法、聚类、客户细分等)对企业的数据、业务、市场进行分析及预测,以图表、数据分析报告的形式支撑企业决策、市场营销、业务拓展、信息运营等工作。

数据+人+工具+算法+知识+预测=商业智能(BI)

数据挖掘在电信行业的应用:

❶ 如何发现电信客户的特征和分类

❷如何预测哪些即将流失的客户

❸ 如何评价客户的贡献价值

❹如何判断客户的欺诈行为特征

❺如何发掘我的潜在客户

❻如何对欠费/坏账进行预测和控制

❼大客户的消费行为特征是什么,人口统计学特征是什么

❽如何知道公司未来一段时间收入情况,及某一收入因子对整个收入的影响指数

……还有更多

2、数据挖掘建模方法

数据挖掘建模建模方法简介

数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确实施数据挖掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型,如下图所示:

其中,SEMMA、5A及CRISP-DM过程模型如下各图示例

数据挖掘建模步骤1-商业理解

商业理解:理解商业目标和业务需求,幵转化为数据挖掘的问题定义。

常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。

数据挖掘建模步骤2-数据理解

数据理解:筛选所需数据,校验数据质量,了解数据含义及特性。

数据理解,顾名思义就是基于对业务问题的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。

数据挖掘建模步骤3-数据准备(1)

数据挖掘建模步骤3-数据准备(2)

数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。

数据挖掘建模步骤4-模型建立

根据建模场景进行算法选择:如描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法 。

数据挖掘建模步骤5-模型评估

模型评估目的在于:什么样的模型是有效的?模型的实际应用效果如何?

根据样本数据,模型结果实际效果反馈数据迚行模型评估。

数据挖掘建模步骤6-模型发布

聚焦业务问题提供端到端的专题解决方案;

提高数据挖掘应用的效果和价值。

数据挖掘建模步骤7-模型优化

3、数据挖掘算法介绍

1)、聚类分析

2)、分类(决策树)

3)、预测(BP神经网路)

BP神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的一般计算能力,而且还具有处理知识的思维、学习、记忆能力。

在数据挖掘中经常利用神经网络的学习、记忆、模型工能进行一些预测。

基于神经网络的数据挖掘过程由数据准备、规则提取和规则应用、预测评估四个阶段组成。其中,规则提取是我们模型预测的核心。

4)、预测(回归)

5)、关联规则

6)、数据处理(主成分/因子分析)

7)、指纹算法

重入网识别技术-呼叫指纹算法

“呼叫指纹”,用户在使用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对稳定的,且存在个体差异。

重入网识别依据:利用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判断为统一用户的的概率越大。

4、数据挖掘应用案例

1)、流失预警模型

客户流失预警模型的建设目的是提前预测客户的流失可能性,根据客户特征对客户进行分群、建模,筛选出可能即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的使用效率,降低客户流失率。

2)、用户真实性识别模型

根据用户入网以后的使用行为、使用位置、缴费特征等识别出虚假用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚假用户的防范措施,欠真实性用户的补救措施 。

3)、客户细分模型

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

AI 迟早灭了程序员

就目前的 AI 来看,判断某项工作是不是会被机器替代,有俩前提,大前提:可以获得足够的有效数据(能自动生成数据则无敌),也就是说机器有快速进化的基础;小前提:人...

752
来自专栏企鹅号快讯

哪种芯片架构将成为人工智能时代的开路先锋

【IT168 评论】如果用刀来比喻芯片,通用处理器好比一把瑞士军刀,人工智能时代好比要拿刀来切肉,瑞士军刀可以拿来用,但它并非是为切肉设计的,所以效果并非最好。...

2156
来自专栏机器学习算法与Python学习

如何准备机器学习工程师的面试?

我之前面试一些公司的机器学习或者数据挖掘工程师的职位。感觉自己准备的不够充分。想了解下一般会问哪些问题,考察哪些方面的东西?? 周开拓 ~~~~~~~~~~~~...

2847
来自专栏AI科技大本营的专栏

重磅|Facebook放大招,训练时间1周降至1天,AI工程师高呼终于等到这一天

作者 | 鸽子 随着深度学习在各行各业的应用日趋成熟,应用范围越来越多元,AI工程师也开始头疼起来: 数据量越来越多,需要应对的场景越来越细分,模型的训练求越...

35710
来自专栏灯塔大数据

如何区分人工智能、机器学习与深度学习?

现在科技行业的术语产生速度令人惊愕,几乎每天都有新名词被创造出来。最近一段时间人们讨论最多的莫过于人工智能、机器学习和深度学习了。 很多公司已经果断采取措施,...

4406
来自专栏机器之心

前沿 | 不再需要动作捕捉,伯克利推出「看视频学杂技」的AI智能体

作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa

2063
来自专栏奇点大数据

统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。 我们这本...

2514
来自专栏大数据文摘

职场 | 如何让你的数据直觉更敏锐

对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。

870
来自专栏数据科学与人工智能

【机器学习】理解深度学习 vs 机器学习 vs 模式识别

本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系。 ? 图1 人...

2118
来自专栏CSDN技术头条

整理:深度学习 vs 机器学习 vs 模式识别

本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的个人博客文章,阅读本文,你可以更好的理解计算机视觉是怎...

19510

扫码关注云+社区

领取腾讯云代金券