干货 | 数据挖掘中的十大实用方法,可能你并不一定都熟悉!

关键字全网搜索最新排名

【机器学习算法】:排名第一

【机器学习】:排名第二

【Python】:排名第三

【算法】:排名第四

目录

  1. 基于历史的MBR分析
  2. 购物篮分析
  3. 决策树
  4. 遗传算法
  5. 聚类分析
  6. 连接分析
  7. OLAP分析
  8. 神经网络
  9. 判别分析
  10. 逻辑回归分析

1.基于历史的MBR分析

基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

MBR中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。

MBR的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够 的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2.购物篮分析

购物篮分析(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点:

1. 选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

2. 经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

3. 克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上:针对信用卡购物,能够预测未来顾客可能购买什么。对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3.决策树

决策树(Decision Trees)在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

4.遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

5.聚类分析

聚类分析(Cluster Detection)这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

6.连接分析

连接分析(Link Analysis)是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于 企业的研究。

7.OLAP分析

严格说起来,OLAP(On-Line Analytic Processing;OLAP)分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8.神经网络

神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。

9.判别分析

当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。

a. 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。

b. 检定各组的重心是否有差异。

c. 找出哪些预测变量具有最大的区别能力。

d. 根据新受试者的预测变量数值,将该受试者指派到某一群体。

10.逻辑回归分析

当判别分析中群体不符合正态分布假设时,逻辑回归分析是一个很好的替代方法。逻辑回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协 率开始减小,故机率值介于0与1之间。

参考:

  1. 数据挖掘导论
  2. 周志华《机器学习》
  3. 李航《统计学习方法》

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

从冷战到深度学习:一篇图文并茂的机器翻译史

选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年...

3286
来自专栏大数据文摘

阿里获中文语法大赛 CGED冠军后,我们和领队科学家聊了聊中文语义识别

3603
来自专栏AI科技大本营的专栏

eBay数据科学家李睿:自然语言处理在eBay的技术实践

记者|谷磊 近日,在飞马网主办的“FMI人工智能&大数据高峰论坛”上,来自eBay的数据科学家李睿博士以“NLP(自然语言处理)在eBay的技术实践”为题做了主...

4399
来自专栏张红林的专栏

机器学习入门书籍简介

在AIclub看到一篇机器学习入门的文章,回想自己磕磕碰碰走过的弯路,颇有感触,因此对自己从懵懂到稍稍入门过程中看过的教程做一个简单的介绍,希望帮到后来人。

4.4K3
来自专栏钱塘大数据

人工智能、区块链、算法...这30个大数据热词你知道吗?

2017年,我国大数据产业保持高速发展态势,各级政府和企业大力推进,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强。展望201...

5925
来自专栏挖掘大数据

10种受欢迎的数据挖掘的实用分析方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,本文将介绍数据挖掘中十种实用分析方法。

1935
来自专栏新智元

【强化学习炼金术】李飞飞高徒带你一文读懂RL来龙去脉

来源: 心有麟熙 作者: Jim 范麟熙 编辑:常佩琦 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)带你一文读懂强化学习的来龙去脉。...

4259
来自专栏鸿的学习笔记

The Brain vs Deep Learning(五)

Estimation of cerebellar input/output dimensions

812
来自专栏ATYUN订阅号

研究人员利用重音训练AI,以提高模型对口音的识别

没有什么东西比不懂你口音的语音识别系统更令人沮丧。发音的语言差异使数据科学家多年来一直困扰,训练模型需要大量数据,而某些方言不像其他方言那么常见。

1252
来自专栏大数据挖掘DT机器学习

网易云音乐歌单的推荐算法解析

网易云音乐的歌单推荐算法是怎样的呢?最近有很多人关心这个问题。调查了一些网易云音乐的重度患者,小咖带你来看一些路过大神的精辟分析。 分析一: “商品推荐”系统...

4864

扫码关注云+社区

领取腾讯云代金券