10大数据挖掘算法及其简介

我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。

算法如下:

  • 1. C4.5
  • 2. k-means
  • 3. 支持向量机
  • 4. Apriori
  • 5. EM
  • 6. PageRank
  • 7. AdaBoost
  • 8. kNN
  • 9. Naive Bayes
  • 10. CART

1.C4.5

C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。

例如,假设在患者数据集中。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,家族史等等,这些是患者的属性。

2.k – means

k- means从一组对象中创建k组,这同样组中的成员就更加相似。这是一种非常受欢迎的用于研究数据集的聚类分析技术。

聚类分析是一组用于形成群体的算法家族,这些算法的组成员更相似。集群和组是聚类分析的同义词。

例如,假设我们有一个患者数据集。在聚类分析中,这些被称为观察报告。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,胆固醇等等,这是一个代表病人的向量。

3.支持向量机

支持向量机(SVM)学习一种将数据分类为2类的超平面。在高级别的情况下,SVM执行类似C4.5的类似任务,但SVM不使用决策树。

超平面是一条直线的方程,y = mx + b,实际上,对于一个简单的、只有2个特征的分类任务,超平面可以是一条直线。

4.Apriori

Apriori算法学习关联规则,并应用于包含大量事务的数据库。

关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。

例如,假设我们有一个超市交易数据库。你可以将数据库看作是一个巨大的电子表格,其中每一行代表一个客户交易,每一列都代表着一种不同的食品。

5.EM

在数据挖掘中,期望最大化(EM)通常被用作知识发掘的聚类算法(比如k – means)。

在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。

6.PageRank

PageRank是一种链接分析算法,用于确定将某个对象链接到网络中另一个对象的相对重要性。

链接分析是一种用于探索对象之间的关联的网络分析(也称为链接)。

这里有一个例子:PageRank最普遍的例子是谷歌的搜索引擎。虽然他们的搜索引擎并不仅仅依赖于PageRank,但它是谷歌用来衡量网页重要性的一个指标。

7.AdaBoost

AdaBoost是一种构造分类器的增强算法。

你可能知道,分类器需要大量的数据,并试图预测或分类一个新的数据元素属于哪个类。

增强是一种集成学习算法,它采用多种学习算法(如决策树),并将其结合。我们的目标是让一个整体或一组弱小的学习者结合起来,创造一个强大的学习者。

强学习者和弱学习者之间的区别是什么?一个学习能力较弱的人,准确率几乎就是靠运气。一个很受欢迎的学习能力弱的例子是一级决策树。

8.kNN

kNN,或k-Nearest Neighbors,是一种分类算法。但是,它与前面描述的分类器不同,因为它是惰性学习。

什么是惰性学习?惰性学习就是在训练过程中除了存储训练数据外几乎不会做其他的事情。只有输入新的未标记数据时,才会对其进行分类。

9.Naive Bayes

Naive Bayes并不是一个单一的算法,而是一个分类算法的家族,他们有一个共同的假设:

被分类的数据的每一个特征都是独立于所有其他特性的。

独立就是一个特征的值对另一个特征的值没有影响,两个特征是独立的。

10.CART

CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。

分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

例如,给定一个患者数据集,你试图预测病人是否会得癌症。分类结果要么是“得了癌症”,要么是“不会得癌症”。回归树是什么?与预测类的分类树不同,回归树预测一个数字或连续的值,例如病人的住院时间或智能手机的价格。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张善友的专栏

通过SmtpClient发送Exchange会议邮件

看到C#中调用Outlook API 发起会议 ,这个完全可以用SMTP方式实现的,下面我的项目中使用的代码: 对于.NET而言,从2.0开始,发邮件已经是一件...

1949
来自专栏木宛城主

曾今的代码系列——自己的分页控件+存储过程实现分页

项目里面的测试代码,仅供参考 LoginByAjax <title>Ajax登陆</title> <script src="Scripts/c...

1915
来自专栏我和未来有约会

Silverlight制作逐帧动画 v2 - part2

Silverlight制作逐帧动画 v2 - part2 在这里完善了一下算法,加入了fps的机制进去。 private string[] ...

1956
来自专栏james大数据架构

CSS好看的按钮

好看的按钮 <style> .btn { BORDER-RIGHT: #7b9ebd 1px solid; PADDING-RIGHT: 2px; BORDE...

2057
来自专栏互联网开发者交流社区

STC-单片机控制系统

1163
来自专栏菩提树下的杨过

Silverlight:利用异步加载Xap实现自定义loading效果

关键点: 1.利用WebClient的DownloadProgressChanged事件更新下载进度 2.下载完成后,分析Xap包的程序集Assembly信息 ...

18610
来自专栏跟着阿笨一起玩NET

从sql server 中读取二进制图片

441
来自专栏hbbliyong

socket 通信 多线程调用窗体(委托)的几个知识点,记录在案,以备查阅

1.socket 通信传输汉字的方法:Encoding.GetEncoding("GB2312").GetString(Receivebyte) 发送接收都这样...

2767
来自专栏逍遥剑客的游戏开发

实现一个同步的RenderApplication

1414
来自专栏王磊的博客

MySQL数据库工具类之——DataTable批量加入MySQL数据库(Net版)

MySQL数据库工具类之——DataTable批量加入数据库(Net版),MySqlDbHelper通用类希望能对大家有用,代码如下: using MySql....

3719

扫码关注云+社区