10大数据挖掘算法及其简介

我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。

算法如下:

  • 1. C4.5
  • 2. k-means
  • 3. 支持向量机
  • 4. Apriori
  • 5. EM
  • 6. PageRank
  • 7. AdaBoost
  • 8. kNN
  • 9. Naive Bayes
  • 10. CART

1.C4.5

C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。

例如,假设在患者数据集中。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,家族史等等,这些是患者的属性。

2.k – means

k- means从一组对象中创建k组,这同样组中的成员就更加相似。这是一种非常受欢迎的用于研究数据集的聚类分析技术。

聚类分析是一组用于形成群体的算法家族,这些算法的组成员更相似。集群和组是聚类分析的同义词。

例如,假设我们有一个患者数据集。在聚类分析中,这些被称为观察报告。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,胆固醇等等,这是一个代表病人的向量。

3.支持向量机

支持向量机(SVM)学习一种将数据分类为2类的超平面。在高级别的情况下,SVM执行类似C4.5的类似任务,但SVM不使用决策树。

超平面是一条直线的方程,y = mx + b,实际上,对于一个简单的、只有2个特征的分类任务,超平面可以是一条直线。

4.Apriori

Apriori算法学习关联规则,并应用于包含大量事务的数据库。

关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。

例如,假设我们有一个超市交易数据库。你可以将数据库看作是一个巨大的电子表格,其中每一行代表一个客户交易,每一列都代表着一种不同的食品。

5.EM

在数据挖掘中,期望最大化(EM)通常被用作知识发掘的聚类算法(比如k – means)。

在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。

6.PageRank

PageRank是一种链接分析算法,用于确定将某个对象链接到网络中另一个对象的相对重要性。

链接分析是一种用于探索对象之间的关联的网络分析(也称为链接)。

这里有一个例子:PageRank最普遍的例子是谷歌的搜索引擎。虽然他们的搜索引擎并不仅仅依赖于PageRank,但它是谷歌用来衡量网页重要性的一个指标。

7.AdaBoost

AdaBoost是一种构造分类器的增强算法。

你可能知道,分类器需要大量的数据,并试图预测或分类一个新的数据元素属于哪个类。

增强是一种集成学习算法,它采用多种学习算法(如决策树),并将其结合。我们的目标是让一个整体或一组弱小的学习者结合起来,创造一个强大的学习者。

强学习者和弱学习者之间的区别是什么?一个学习能力较弱的人,准确率几乎就是靠运气。一个很受欢迎的学习能力弱的例子是一级决策树。

8.kNN

kNN,或k-Nearest Neighbors,是一种分类算法。但是,它与前面描述的分类器不同,因为它是惰性学习。

什么是惰性学习?惰性学习就是在训练过程中除了存储训练数据外几乎不会做其他的事情。只有输入新的未标记数据时,才会对其进行分类。

9.Naive Bayes

Naive Bayes并不是一个单一的算法,而是一个分类算法的家族,他们有一个共同的假设:

被分类的数据的每一个特征都是独立于所有其他特性的。

独立就是一个特征的值对另一个特征的值没有影响,两个特征是独立的。

10.CART

CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。

分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

例如,给定一个患者数据集,你试图预测病人是否会得癌症。分类结果要么是“得了癌症”,要么是“不会得癌症”。回归树是什么?与预测类的分类树不同,回归树预测一个数字或连续的值,例如病人的住院时间或智能手机的价格。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

南开大学提出新物体分割评价指标,相比经典指标错误率降低 69.23%

---- 新智元专栏 作者:范登平(南开大学) 【新智元导读】南开大学媒体计算实验室等研究团队从人类视觉系统对场景结构非常敏感的角度出发,提出一种新颖、...

3308
来自专栏Fish

Andrew Ng的机器学习课程概述(一)

写在最前面 吴神的机器学习神课,网上也有很多写得很好的笔记了比如:很好的中文版;更好的英文版 在视频看累的时候看看这个基本上也错过不了知识点。 这门课基本...

2089
来自专栏用户2442861的专栏

形象易懂讲解算法II——压缩感知

作者:咚懂咚懂咚 链接:https://zhuanlan.zhihu.com/p/22445302 来源:知乎 著作权归作者所有。商业转载请联系作者获得授...

1912
来自专栏AI研习社

分分钟带你杀入Kaggle Top 1%

不知道你有没有这样的感受,在刚刚入门机器学习的时候,我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手,复现别人的结果,但总觉得过于简单...

6048
来自专栏ATYUN订阅号

利用深度学习改变位置感知计算

位置感知位于定位服务(LBS)的核心位置。然而,准确地估计目标的位置并不那么简单。全球定位系统(GPS),可以直接输出地理空间坐标,但它的错误可能远远超出了某些...

41611
来自专栏腾讯大讲堂的专栏

深度学习及并行化实现概述

摘要: 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具...

2998
来自专栏机器之心

学界 | 超级收敛:使用超大学习率超快速训练残差网络

选自arXiv 机器之心编译 参与:Panda 训练大型神经网络往往很耗时间。在最近一篇论文中,美国海军研究实验室和马里兰大学的两位研究者展示了一种名叫「超级收...

3134
来自专栏个人分享

数据挖掘10大算法详细介绍

在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。

3214
来自专栏CSDN技术头条

Kaggle 数据挖掘比赛经验分享

Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kagg...

6239
来自专栏腾讯大数据的专栏

解密最接近人脑的智能学习机器 ——深度学习及并行化实现

训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希望,并在多个应用领域获得了成功。深层模型的并行化框架和训...

3015

扫码关注云+社区

领取腾讯云代金券