学习
实践
活动
专区
工具
TVP
写文章

机器学习绪论-鸢尾花数据集分析

学习机器学习,必然要学习数据的分析和模型的训练。本篇通过加载 python 中的鸢尾花数据进行可视化,并通过 sklearn 中的逻辑回归模型来 train 和 predict 数据。

加载 python 的类库

加载鸢尾花的数据

输出样本个数、特征名称、以及分类类型

为了方便最后验证模型的结果,我们取每组数据的第一个作为最后的测试样本集

结果是酱紫的:

可视化

为了可视化,我们把数组格式的数据转为 DataFrame,可视化更清晰明了

首先,通过箱型图来看一下每个特征值的大概区间以及是否有异常值

通过柱状图来看一下各个特征值的分布情况

通过散点矩阵来看一下相关性

通过不同颜色,不同大小的散点图来大概看一下样本的分布情况

4个特征向量在二维上的表现能力有限,我们通过三维的散点图来观测一下

训练数据

使用逻辑回归模型对 train sample 进行训练

结果会给出训练得到的参数

还记得最初留的3个 test 数据集吗?我们用训练好的模型对测试数据进行预测,看结果是否和我们预期的一样

结果当然是和我们预期的一样:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181129G082BK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券