10大数据挖掘算法及其简介

我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。

算法如下:

  • 1. C4.5
  • 2. k-means
  • 3. 支持向量机
  • 4. Apriori
  • 5. EM
  • 6. PageRank
  • 7. AdaBoost
  • 8. kNN
  • 9. Naive Bayes
  • 10. CART

1.C4.5

C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。

例如,假设在患者数据集中。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,家族史等等,这些是患者的属性。

2.k – means

k- means从一组对象中创建k组,这同样组中的成员就更加相似。这是一种非常受欢迎的用于研究数据集的聚类分析技术。

聚类分析是一组用于形成群体的算法家族,这些算法的组成员更相似。集群和组是聚类分析的同义词。

例如,假设我们有一个患者数据集。在聚类分析中,这些被称为观察报告。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,胆固醇等等,这是一个代表病人的向量。

3.支持向量机

支持向量机(SVM)学习一种将数据分类为2类的超平面。在高级别的情况下,SVM执行类似C4.5的类似任务,但SVM不使用决策树。

超平面是一条直线的方程,y = mx + b,实际上,对于一个简单的、只有2个特征的分类任务,超平面可以是一条直线。

4.Apriori

Apriori算法学习关联规则,并应用于包含大量事务的数据库。

关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。

例如,假设我们有一个超市交易数据库。你可以将数据库看作是一个巨大的电子表格,其中每一行代表一个客户交易,每一列都代表着一种不同的食品。

5.EM

在数据挖掘中,期望最大化(EM)通常被用作知识发掘的聚类算法(比如k – means)。

在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。

6.PageRank

PageRank是一种链接分析算法,用于确定将某个对象链接到网络中另一个对象的相对重要性。

链接分析是一种用于探索对象之间的关联的网络分析(也称为链接)。

这里有一个例子:PageRank最普遍的例子是谷歌的搜索引擎。虽然他们的搜索引擎并不仅仅依赖于PageRank,但它是谷歌用来衡量网页重要性的一个指标。

7.AdaBoost

AdaBoost是一种构造分类器的增强算法。

你可能知道,分类器需要大量的数据,并试图预测或分类一个新的数据元素属于哪个类。

增强是一种集成学习算法,它采用多种学习算法(如决策树),并将其结合。我们的目标是让一个整体或一组弱小的学习者结合起来,创造一个强大的学习者。

强学习者和弱学习者之间的区别是什么?一个学习能力较弱的人,准确率几乎就是靠运气。一个很受欢迎的学习能力弱的例子是一级决策树。

8.kNN

kNN,或k-Nearest Neighbors,是一种分类算法。但是,它与前面描述的分类器不同,因为它是惰性学习。

什么是惰性学习?惰性学习就是在训练过程中除了存储训练数据外几乎不会做其他的事情。只有输入新的未标记数据时,才会对其进行分类。

9.Naive Bayes

Naive Bayes并不是一个单一的算法,而是一个分类算法的家族,他们有一个共同的假设:

被分类的数据的每一个特征都是独立于所有其他特性的。

独立就是一个特征的值对另一个特征的值没有影响,两个特征是独立的。

10.CART

CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。

分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

例如,给定一个患者数据集,你试图预测病人是否会得癌症。分类结果要么是“得了癌症”,要么是“不会得癌症”。回归树是什么?与预测类的分类树不同,回归树预测一个数字或连续的值,例如病人的住院时间或智能手机的价格。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习与自然语言处理

Stanford机器学习笔记-7. Machine Learning System Design

7 Machine Learning System Design Content   7 Machine Learning System Design  ...

1779
来自专栏大数据风控

评分卡模型开发-定性指标筛选

定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢? R里面给我们提供了非常强大的IV值计算算法,通过引用R里面的informatio...

20910
来自专栏机器之心

学界 | 用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法

选自BAIR Blog 作者:Shubham Tulsiani、Tinghui Zhou 机器之心经授权编译 参与:smith、蒋思源、李泽南 最近,UC Be...

2775
来自专栏WindCoder

探索监督式机器学习算法

这周送来一篇python实现的机器学习的相关文章。一起学习吧。能力有限,一切以英文原文为准。里面部分公式改好好久,总是有一些变不过来,这些暂时看英文里面的吧。

241
来自专栏大数据

10大数据挖掘算法及其简介

AiTechYun 编辑:xiangxiaoshan 我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。 算法如下: 1. C4.5 2. k-me...

1777
来自专栏趣学算法

贪心算法秘籍

从前,有一个很穷的人救了一条蛇的命,蛇为了报答他的救命之恩,于是就让这个人提出要求,满足他的愿望。这个人一开始只要求简单的衣食,蛇都满足了他的愿望,后来慢慢的贪...

792
来自专栏AI科技评论

学界 | 清华大学自动化系张长水教授:神经网络模型的结构优化

AI科技评论按:3月4日,中国人工智能学会AIDL第二期【人工智能前沿讲习班】在北京中科院自动化所举行,本期主题为【机器学习前沿】,由周志华教授担任学术主任,前...

3489
来自专栏机器之心

MIT提出精细到头发丝的语义分割技术,打造效果惊艳的特效电影

随着电影越来越关注 CGI,电影制作人必须更加擅长「合成」,即将前景和背景图像融合,比如将演员放在飞机或行星上,或者放在电影《黑豹》里瓦坎达这样的虚构世界中。

301
来自专栏算法channel

机器学习:不得不知的概念(1)

主要推送关于对算法的思考以及应用的消息。培养思维能力,注重过程,挖掘背后的原理,刨根问底。本着严谨和准确的态度,目标是撰写实用和启发性的文章,欢迎您的关注。 人...

3309
来自专栏大数据文摘

“无中生有”计算机视觉探奇

942

扫描关注云+社区