10大数据挖掘算法及其简介

我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。

算法如下:

  • 1. C4.5
  • 2. k-means
  • 3. 支持向量机
  • 4. Apriori
  • 5. EM
  • 6. PageRank
  • 7. AdaBoost
  • 8. kNN
  • 9. Naive Bayes
  • 10. CART

1.C4.5

C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。

例如,假设在患者数据集中。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,家族史等等,这些是患者的属性。

2.k – means

k- means从一组对象中创建k组,这同样组中的成员就更加相似。这是一种非常受欢迎的用于研究数据集的聚类分析技术。

聚类分析是一组用于形成群体的算法家族,这些算法的组成员更相似。集群和组是聚类分析的同义词。

例如,假设我们有一个患者数据集。在聚类分析中,这些被称为观察报告。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,胆固醇等等,这是一个代表病人的向量。

3.支持向量机

支持向量机(SVM)学习一种将数据分类为2类的超平面。在高级别的情况下,SVM执行类似C4.5的类似任务,但SVM不使用决策树。

超平面是一条直线的方程,y = mx + b,实际上,对于一个简单的、只有2个特征的分类任务,超平面可以是一条直线。

4.Apriori

Apriori算法学习关联规则,并应用于包含大量事务的数据库。

关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。

例如,假设我们有一个超市交易数据库。你可以将数据库看作是一个巨大的电子表格,其中每一行代表一个客户交易,每一列都代表着一种不同的食品。

5.EM

在数据挖掘中,期望最大化(EM)通常被用作知识发掘的聚类算法(比如k – means)。

在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。

6.PageRank

PageRank是一种链接分析算法,用于确定将某个对象链接到网络中另一个对象的相对重要性。

链接分析是一种用于探索对象之间的关联的网络分析(也称为链接)。

这里有一个例子:PageRank最普遍的例子是谷歌的搜索引擎。虽然他们的搜索引擎并不仅仅依赖于PageRank,但它是谷歌用来衡量网页重要性的一个指标。

7.AdaBoost

AdaBoost是一种构造分类器的增强算法。

你可能知道,分类器需要大量的数据,并试图预测或分类一个新的数据元素属于哪个类。

增强是一种集成学习算法,它采用多种学习算法(如决策树),并将其结合。我们的目标是让一个整体或一组弱小的学习者结合起来,创造一个强大的学习者。

强学习者和弱学习者之间的区别是什么?一个学习能力较弱的人,准确率几乎就是靠运气。一个很受欢迎的学习能力弱的例子是一级决策树。

8.kNN

kNN,或k-Nearest Neighbors,是一种分类算法。但是,它与前面描述的分类器不同,因为它是惰性学习。

什么是惰性学习?惰性学习就是在训练过程中除了存储训练数据外几乎不会做其他的事情。只有输入新的未标记数据时,才会对其进行分类。

9.Naive Bayes

Naive Bayes并不是一个单一的算法,而是一个分类算法的家族,他们有一个共同的假设:

被分类的数据的每一个特征都是独立于所有其他特性的。

独立就是一个特征的值对另一个特征的值没有影响,两个特征是独立的。

10.CART

CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。

分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

例如,给定一个患者数据集,你试图预测病人是否会得癌症。分类结果要么是“得了癌症”,要么是“不会得癌症”。回归树是什么?与预测类的分类树不同,回归树预测一个数字或连续的值,例如病人的住院时间或智能手机的价格。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

AI 技术讲座精选:机器学习中梯度下降算法(包括其变式算法)简介

前 言 无论是要解决现实生活中的难题,还是要创建一款新的软件产品,我们最终的目标都是使其达到最优状态。作为一名计算机科学专业的学生,我经常需要优化各种代码,以便...

3224
来自专栏机器学习算法与理论

《白话深度学习与Tensorflow》学习笔记(5)强化学习(reinforcement learning)

强化学习(reinforcement learning)本身是一种人工智能在训练中得到策略的训练过程。 有这样一种比喻:如果你教一个孩子学古筝,他可以躺着,趴着...

5539
来自专栏ATYUN订阅号

【学术】马尔可夫链的详细介绍及其工作原理

AiTechYun 编辑:xiaoshan 马尔可夫链是一种相当常见的、相对简单的统计模型随机过程的方法。它们已经被应用于许多不同的领域,从文本生成到金融建模。...

2737
来自专栏人工智能

网络入侵检测的机器学习算法评估与比较

摘要:入侵检测传统方法的准确性和有效性已经无法满足大数据时代的需求,机器学习算法日趋成为主流。现主要研究侧重于机器学习算法中的支持向量机,但其也有自身的缺点。因...

3758
来自专栏生信小驿站

py 决策树①

它总是在沿着特征做切分。随着层层递进,这个划分会越来越细。虽然生成的树不容易给用户看,但是数据分析的时候,通过观察树的上层结构,能够对分类器的核心思路有一个直观...

603
来自专栏企鹅号快讯

谷歌最新端到端语音识别系统:词错率降至5.6%,性能提升16%!

-免费加入AI技术专家社群>> 导读:谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比传统的商用方法实现了16%的改...

2799
来自专栏数据派THU

ML:教你聚类并构建学习模型处理数据(附数据集)

1588
来自专栏新智元

谷歌发布MobileNetV2:推动下一代移动计算机视觉网络

1422
来自专栏机器之心

学习了!谷歌今日上线基于TensorFlow的机器学习速成课程(中文版)

机器之心整理 参与:思源、许迪 随着机器学习越来越受到公众的关注,很多初学者希望能快速了解机器学习及前沿技术。而今天谷歌上线了基于 TensorFlow 的机...

2726
来自专栏机器之心

ICML 2018 | 英伟达提出仅使用噪点图像训练的图像增强方法,可去除照片噪点

近期在深度学习领域的研究聚焦于通过展示带噪点和清晰的图像示例对来训练神经网络修复图像。然后 AI 系统学习如何弥补差异。新方法的不同之处在于,它仅需要两张都带噪...

1124

扫码关注云+社区