首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用Python和R实现6个重要的机器学习算法

作者 | Micah Williams

翻译 | 虎说八道

来源 | 云栖社区

本文旨在为那些想要获取重要机器学习概念知识的人们提供一些机器学习算法,并且附上相关算法的程序实现。

通用的机器学习算法包括:

决策树

SVM

朴素贝叶斯

KNN

K均值

随机森林

下面是使用Python和R代码实现并简要解释这些常见机器学习算法。

决策树

这是作者最喜欢的算法之一,作者经常使用它。它是一种主要用于分类问题的监督学习算法。令人惊讶的是,它竟然适用于分类和连续因变量。在这个算法中,我们可以将总体分成两个或更多的齐次集合。这需要基于一些非常重要的属性和独立变量完成,以使组群尽可能独立。

Python代码:

R代码:

支持向量机(SVM)

这是一种分类方法。在这个算法中,我们将每个数据项绘制为一个n维空间中的一个点(其中n是你拥有的特征的数量),每个特征的值是特定坐标的值。

例如,如果我们只有两个特征,比如一个人的身高和头发长度,我们首先将这两个变量绘制在二维空间中,每个点有两个坐标值表示(称为支持向量)。接着,我们将找到一些将两个不同分类的数据组之间的数据分割的行,这将是两组中最近点之间距离最远的线。

Python代码:

R代码:

# Fitting model#Predict Output

朴素贝叶斯

这是一种基于贝叶斯定理的分类技术,假设预测变量之间具有独立性。简而言之,朴素贝叶斯分类器假设类中特定特征的存在与任何其他特征的存在无关。例如,如果果实呈红色,圆形,直径约3英寸,则果实可以被认为是苹果。即使这些特征依赖于彼此或者依赖于其他特征的存在,朴素贝叶斯分类器也会考虑所有这些特性来独立地预测该水果是苹果的可能性。

朴素贝叶斯模型很容易构建,对于非常大的数据集特别有用。朴素贝叶斯是众所周知的,高度复杂的分类方法。

贝叶斯定理提供了一种计算P(c),P(x)和P(x|c)的后验概率的方法:P(c|x)。

P(c|x)是给定预测器(属性)的类(目标)的后验概率。

P(c)是类的先验概率。

P(x|c)是预测器给定类的概率的可能性。

P(x)是预测器的先验概率。

Python代码:

R代码:

# Fitting model#Predict Output

KNN(K-近邻)

这个算法可以用于分类和回归问题。但在ML行业中分类问题更为广泛。K近邻是一种简单的算法,它存储所有可用的案例,并通过其K个邻居的多数投票来分类新案例。KNN算法的核心是如果一个样本在特征空间中的K个最相邻样本值得大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。其中判断的依据是距离函数的计算。

这些距离函数可以是欧几里得、曼哈顿、闵可夫斯基或汉明距离。前三个函数用于连续函数,Hamming用于分类变量。如果K = 1,那么这个情况就被简单地分配给它最近的邻居的类别。有时候,在执行KNN建模时选择K是一个巨大的挑战。

KNN可以很容易地映射到我们的真实生活中。如果你想了解一个你不了解的人,你可能会想知道他们的密友和他们进入的圈子,以获得他们的信息!

选择KNN之前需要考虑的事项是:

KNN在计算资源上是昂贵的。

变量应该被标准化,否则较高范围的变量可能会偏差。

在进行KNN之前更多地处理预处理阶段,如异常值/噪音消除。

Python代码:

R代码:

# Fitting model#Predict Output

K均值

这是一种解决聚类问题的无监督算法,其过程遵循一个简单的方法,即通过一定数量的聚类来分类给定的数据集(假设K个聚类)。群集内的数据点与同级群组是同质且异质的。

还记得从墨迹中弄出形状吗?K-means有点类似于这个活动。你可以通过看形状破译有多少不同的群集/总体存在!

K-means如何形成一个集群:

K-均值为每个群集选取K个点数,称为质心。

每个数据点形成具有最接近质心的群集,即K个群集。

根据现有集群成员查找每个集群的质心。

由于我们有新的质心,请重复步骤2和步骤3。从新质心找到每个数据点的最近距离,并与新的K个聚类关联。重复这个过程直到收敛,即质心不变。

如何确定K的价值:

在K-means中,我们有簇,每个簇都有自己的质心。集群内质心和数据点之差的平方和构成该集群平方值的总和。另外,当所有群集的平方和的总和被加上时,它成为群集解决方案的平方和的总和。

我们知道,随着簇数量的增加,这个值会不断下降,但是如果你绘制结果的话,你可能会看到,平方距离的总和急剧下降到某个K值,然后慢得多。这样,我们就可以找到最佳的簇数。

Python代码:

R代码:

# 5 cluster solution

随机森林

随机森林是一个决策树集合的术语。在随机森林里,我们有一系列被称为森林的决策树。为了根据属性对新的对象进行分类,每棵树都给出了一个分类,并且我们说这棵树对那个分类“投票”,森林选择票数最多的分类(在森林中的所有树上)。

每棵树种植和生长如下:

如果训练集中的实例数为N,则随机抽取N个实例样本,并进行替换。

如果有M个输入变量,则指定一个数m

每棵树都尽可能地生长。没有修剪。

Python代码:

#Import Library

fromimport#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

# Create Random Forest object# Train the model using the training sets and check score#Predict Output

R代码:

# Fitting model#Predict Output

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180222B0UZVL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券