专栏首页全栈数据化营销Excel数据分析案例:用Excel训练支持向量机(SVM)

Excel数据分析案例:用Excel训练支持向量机(SVM)

这里使用的数据集Kaggle上名为“ Titanic:来自灾难的机器学习”的机器学习竞赛。它指的是1912年泰坦尼克号号沉没。在这场悲剧中,2,224名乘客中有1,500多人因救生艇数量不足而丧生。数据集由1309名乘客的列表以及一些信息组成:

幸存:生存(0 =否; 1 =是)

pclass:乘客舱(1 = 1st; 2 = 2nd; 3= 3rd)

名称:名称

性别:性别(男;女)

年龄:年龄

sibsp:兄弟姐妹/配偶人数

缺席:父母/子女人数

票价:客运票价

客舱:客舱

登船:登船港(C =瑟堡; Q =皇后镇; S =南安普敦)

本文的目的是学习如何用excel在数据集上设置和训练SVM分类器,并了解分类器在验证集上的表现如何。

1、设置SVM分类器

要设置SVM分类器,单击机器学习/机器支持向量,如下所示:

单击按钮后,将显示SVM对话框。在Excel工作表上选择数据。

在[ 回应变数]栏位中,选取要在分类资料时要预测的二元变数。在我们的案例中,这是提供生存信息的列。

我们还通过选中两个复选框来选择定量和定性的解释变量,如下所示。

在定量字段中,我们选择与以下字段对应的列:Age、sibsp、parch、fare

在定性字段中,我们选择包含定性信息的列:Pclass、sex、embarked

由于每个变量的名称都位于表的顶部,因此我们必须选中“变量标签”复选框。

在“ 选项”选项卡中,必须设置分类器参数。

对于SMO参数,我们将使用默认选项。所述Ç字段对应于正则化参数。它表示您希望在优化过程中允许多少错误分类。C的值越大,表示对每个未分类的观察结果的惩罚都越大。在我们的例子中,我们设置C的值在1 小量字段是数字精度参数。它取决于计算机,可以留在1e-12。容差参数表明比较支持向量时优化算法的准确性。如果要加快计算速度,可以增加公差参数。我们将容差保留为其默认值。

我们在预处理字段中选择“ 重新缩放”,并使用线性核,如下所示。当我们想了解分类器的性能如何时,我们将从训练样本中得出一个验证样本。为此,在“ 验证”选项卡中,我们选中“ 验证”复选框并随机选择100个观测值:

从训练样本中抽取,如下所示:

最后,在Outputs选项卡中,我们选择要获取的输出,如下所示:

单击OK即可开始计算。然后将显示结果。

2、解释SVM分类器的结果

第一个表显示了优化的SVM分类器的摘要。您可以在下图上看到分类器必须在0类和1类之间进行分类,并且0类已被标记为正类。有943个观测值用于训练分类器,其中已识别出766个支持向量。

下方显示的第二张表给出了766个支持向量的完整列表,以及相关的alpha系数值以及输出类别的正值或负值。连同前一个表的偏差值,此信息足以充分描述优化的分类器。

接下来的两个表显示结果来自训练样本和验证样本的混淆矩阵。这些矩阵为我们提供了分类器执行情况的指标。对于训练数据集,我们有66.49%的正确答案,对于验证集,这个数字上升到74%。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 3个案例说决策树应用:提高数十倍效率,还能帮你精准找到另一半

    一个单身狗写下这个标题我是心虚!!! 很早就听说过决策树算法的威力,很早之前就做过决策树模型的分析和应用,这次就来看看决策树算法的操作和实际运用。 首先,要先理...

    沉默的白面书生
  • 一张脑图讲透会员数据化运营:给你分析思路、模型和工具

    老客户或者会员客户对企业来说是非常重要的收入来源,开发新客户的成本是老客户的8倍,所有非常有必要激活老客户。数据在会员客户维护中起着非常重要的作用。于是就整理了...

    沉默的白面书生
  • 一张脑图讲透会员数据化运营:给你分析思路、模型和工具

    沉默的白面书生
  • 机器学习三人行-手写数字识别实战

    前面三个系列我们分别从机器学习入门,洞悉数据,已经数据预处理,回归建模等方面进行了系统的学习。 今天我们根据mnist手写数字的数据集来对0-9共10个数字进行...

    企鹅号小编
  • 机器学习三人行(系列四)----手写数字识别实战(附代码)

    今天我们根据mnist手写数字的数据集来对0-9共10个数字进行分类,旨在通过这个分类项目的学习,一起学习分类的相关知识和技巧。 由于篇幅有限,代码未全部贴出,...

    智能算法
  • Energy-efficient Amortized Inference with Cascaded Deep Classifiers论文笔记

    深度神经网络在许多AI任务中取得了卓越的成功, 但是通常会造成高的计算量和能量耗费, 对于某些能量有约束的应用, 例如移动传感器等.

    Mezereon
  • 机器学习中最最好用的提升方法:Boosting 与 AdaBoost

    最近,Boosting 技术在 Kaggle 竞赛以及其它预测分析任务中大行其道。本文将尽可能详细地介绍有关 Boosting 和 AdaBoost 的相关概念...

    机器之心
  • 理解AdaBoost算法

    与随机森林一样,Boosting算法也是一种集成学习算法,随机森林和集成学习在SIGAI之前的公众号文章“随机森林概述”中已经介绍。Boosting的分类器由多...

    SIGAI学习与实践平台
  • Resample方法

    核心思想在于,给定训练集,当你认为给定的训练集不能够很好地反应数据的真实分布时,可以采用重采样的方法,来增大样本.

    JNJYan
  • 机器学习入门(四) — 分类模型1 分类-分析情感2 从主题预测情感:智能餐厅评价系统3 分类器应用4 线性分类器5 决策边界6 训练和评估分类器7 什么是好的精度

    JavaEdge

扫码关注云+社区

领取腾讯云代金券