前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Excel数据分析案例:用Excel训练支持向量机(SVM)

Excel数据分析案例:用Excel训练支持向量机(SVM)

作者头像
沉默的白面书生
发布2020-03-20 15:14:01
3K0
发布2020-03-20 15:14:01
举报

这里使用的数据集Kaggle上名为“ Titanic:来自灾难的机器学习”的机器学习竞赛。它指的是1912年泰坦尼克号号沉没。在这场悲剧中,2,224名乘客中有1,500多人因救生艇数量不足而丧生。数据集由1309名乘客的列表以及一些信息组成:

幸存:生存(0 =否; 1 =是)

pclass:乘客舱(1 = 1st; 2 = 2nd; 3= 3rd)

名称:名称

性别:性别(男;女)

年龄:年龄

sibsp:兄弟姐妹/配偶人数

缺席:父母/子女人数

票价:客运票价

客舱:客舱

登船:登船港(C =瑟堡; Q =皇后镇; S =南安普敦)

本文的目的是学习如何用excel在数据集上设置和训练SVM分类器,并了解分类器在验证集上的表现如何。

1、设置SVM分类器

要设置SVM分类器,单击机器学习/机器支持向量,如下所示:

单击按钮后,将显示SVM对话框。在Excel工作表上选择数据。

在[ 回应变数]栏位中,选取要在分类资料时要预测的二元变数。在我们的案例中,这是提供生存信息的列。

我们还通过选中两个复选框来选择定量和定性的解释变量,如下所示。

在定量字段中,我们选择与以下字段对应的列:Age、sibsp、parch、fare

在定性字段中,我们选择包含定性信息的列:Pclass、sex、embarked

由于每个变量的名称都位于表的顶部,因此我们必须选中“变量标签”复选框。

在“ 选项”选项卡中,必须设置分类器参数。

对于SMO参数,我们将使用默认选项。所述Ç字段对应于正则化参数。它表示您希望在优化过程中允许多少错误分类。C的值越大,表示对每个未分类的观察结果的惩罚都越大。在我们的例子中,我们设置C的值在1 小量字段是数字精度参数。它取决于计算机,可以留在1e-12。容差参数表明比较支持向量时优化算法的准确性。如果要加快计算速度,可以增加公差参数。我们将容差保留为其默认值。

我们在预处理字段中选择“ 重新缩放”,并使用线性核,如下所示。当我们想了解分类器的性能如何时,我们将从训练样本中得出一个验证样本。为此,在“ 验证”选项卡中,我们选中“ 验证”复选框并随机选择100个观测值:

从训练样本中抽取,如下所示:

最后,在Outputs选项卡中,我们选择要获取的输出,如下所示:

单击OK即可开始计算。然后将显示结果。

2、解释SVM分类器的结果

第一个表显示了优化的SVM分类器的摘要。您可以在下图上看到分类器必须在0类和1类之间进行分类,并且0类已被标记为正类。有943个观测值用于训练分类器,其中已识别出766个支持向量。

下方显示的第二张表给出了766个支持向量的完整列表,以及相关的alpha系数值以及输出类别的正值或负值。连同前一个表的偏差值,此信息足以充分描述优化的分类器。

接下来的两个表显示结果来自训练样本和验证样本的混淆矩阵。这些矩阵为我们提供了分类器执行情况的指标。对于训练数据集,我们有66.49%的正确答案,对于验证集,这个数字上升到74%。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档