10大数据挖掘算法及其简介

AiTechYun

编辑:xiangxiaoshan

我希望你能把这篇文章作为一个跳板,学习更多关于数据挖掘的知识。

算法如下:

1. C4.5

2. k-means

3. 支持向量机

4. Apriori

5. EM

6. PageRank

7. AdaBoost

8. kNN

9. Naive Bayes

10. CART

1.C4.5

C4.5以决策树的形式构造了一个分类器。为了做到这一点,C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具,它取一堆数据来表示我们想要分类的东西,并试图预测新数据属于哪个类。

例如,假设在患者数据集中。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,家族史等等,这些是患者的属性。

2.k – means

k- means从一组对象中创建k组,这同样组中的成员就更加相似。这是一种非常受欢迎的用于研究数据集的聚类分析技术。

聚类分析是一组用于形成群体的算法家族,这些算法的组成员更相似。集群和组是聚类分析的同义词。

例如,假设我们有一个患者数据集。在聚类分析中,这些被称为观察报告。我们知道每个患者的情况,比如年龄,脉搏,血压,VO2max,胆固醇等等,这是一个代表病人的向量。

3.支持向量机

支持向量机(SVM)学习一种将数据分类为2类的超平面。在高级别的情况下,SVM执行类似C4.5的类似任务,但SVM不使用决策树。

超平面是一条直线的方程,y = mx + b,实际上,对于一个简单的、只有2个特征的分类任务,超平面可以是一条直线。

4.Apriori

Apriori算法学习关联规则,并应用于包含大量事务的数据库。

关联规则学习是一种数据挖掘技术,用于学习数据库中变量之间的相互关系和关系。

例如,假设我们有一个超市交易数据库。你可以将数据库看作是一个巨大的电子表格,其中每一行代表一个客户交易,每一列都代表着一种不同的食品。

5.EM

在数据挖掘中,期望最大化(EM)通常被用作知识发掘的聚类算法(比如k – means)。

在统计数据中,EM算法迭代并优化了查看观测数据的可能性,同时评估未观测变量的统计模型参数。

6.PageRank

PageRank是一种链接分析算法,用于确定将某个对象链接到网络中另一个对象的相对重要性。

链接分析是一种用于探索对象之间的关联的网络分析(也称为链接)。

这里有一个例子:PageRank最普遍的例子是谷歌的搜索引擎。虽然他们的搜索引擎并不仅仅依赖于PageRank,但它是谷歌用来衡量网页重要性的一个指标。

7.AdaBoost

AdaBoost是一种构造分类器的增强算法。

你可能知道,分类器需要大量的数据,并试图预测或分类一个新的数据元素属于哪个类。

增强是一种集成学习算法,它采用多种学习算法(如决策树),并将其结合。我们的目标是让一个整体或一组弱小的学习者结合起来,创造一个强大的学习者。

强学习者和弱学习者之间的区别是什么?一个学习能力较弱的人,准确率几乎就是靠运气。一个很受欢迎的学习能力弱的例子是一级决策树。

8.kNN

kNN,或k-Nearest Neighbors,是一种分类算法。但是,它与前面描述的分类器不同,因为它是惰性学习。

什么是惰性学习?惰性学习就是在训练过程中除了存储训练数据外几乎不会做其他的事情。只有输入新的未标记数据时,才会对其进行分类。

9.Naive Bayes

Naive Bayes并不是一个单一的算法,而是一个分类算法的家族,他们有一个共同的假设:

被分类的数据的每一个特征都是独立于所有其他特性的。

独立就是一个特征的值对另一个特征的值没有影响,两个特征是独立的。

10.CART

CART代表分类和回归树。它是一种决策树学习技术,它输出分类或回归树。和C4.5一样,CART是一个分类器。

分类树是否像决策树?分类树是决策树的一种类型。分类树的输出是一个类。

例如,给定一个患者数据集,你试图预测病人是否会得癌症。分类结果要么是“得了癌症”,要么是“不会得癌症”。回归树是什么?与预测类的分类树不同,回归树预测一个数字或连续的值,例如病人的住院时间或智能手机的价格。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171229B0INU600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券