前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习(三)基本概念强化

机器学习(三)基本概念强化

作者头像
Maynor
发布2023-10-17 08:52:14
1330
发布2023-10-17 08:52:14
举报
1.6.2机器学习数据集基本概念强化

下面是西瓜数据集,可以通过西瓜的色泽、根蒂、敲声确定一个西瓜是好瓜或坏瓜 :

img
img

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据:

{颜色=乌黑,敲声=浊响}

{颜色=青绿,敲声=清脆}

img
img

基础概念1】将这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。

基础概念2】而我们所说的西瓜的色泽,这种可以反应事件或对象在某方面的表现或性质的事项,称为“特征”(feature)或“属性”(attribute)”

属性上的取值,如色泽青绿等,这个取值称为属性值(attribute value)。

基础概念3】属性构成的空间称为“属性空间”或样本空间(sample space)或输入空间。比如将西瓜的颜色,敲声作为两个坐标轴,则它们可以张成一个用于描述西瓜的二维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量,因此我们也把一个样本称作一个“特征向量”(feature vector)。

假设

img
img

是西瓜数据集

img
img

的第i个样本,其中

img
img

img
img

在第j个属性上的取值,如第3个西瓜在第1个属性(颜色)上取值为“乌黑”。d称为样本

img
img

的“维度数或维数”(dimensionality)。数据集D中的

img
img

表示第i个样本或示例。

基础概念4】从数据中学得模型得过程称为“学习”(learning)或训练(training),这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“训练数据”(training set)。

***训练数据:***由输入X与输出Y对组成。训练集在数学上表示为:

img
img

基础概念5模型有时也称为“学习器”(learner),可以看作是学习算法在给定数据和参数空间上的实例化。

基础概念6】如果希望学得一个能帮助我们判断西瓜是不是“好瓜”的模型,仅仅有前面的样本数据是不够的,要建立这样的关于“预测(prediction)”的模型,我们需要获得训练样本的“结果”信息,如:{(颜色=青绿,敲声=浊响),好瓜}。这里的结果信息,称为样本的“标记(label)”;拥有了标记信息的样本,则称为“样例(example)”。用

img
img

表示第i个样例,yi是样本x的标识,一般把标记的集合称为标记空间(label space)或输出空间。

学习完模型后,就需要进行预测,预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。

***测试数据:***也是由输入X与输出Y组成,是用于测试训练好的模型对于新数据的预测能力。例如在中学阶段的函数可表示为y=f(x),这里的f指的是通过学习得到的模型,对于测试x,可得到其预测标记y=f(x)。

有了上面基本概念铺垫,我们可以学习机器学习的三种不同方法

1.6.3电商数据集基本概念强化

首先,通过电商购买数据集了解机器学习数据集的构成:其中每一个用户都由age年龄、income收入、student是否为学生、credit_rating信用级别和buy_computer是否购买电脑组成。

img
img

如果通过机器识别用户是否购买电脑,需要将数据集中各字段进行数字化:

img
img

数据集的描述:

img
img
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.6.2机器学习数据集基本概念强化
  • 1.6.3电商数据集基本概念强化
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档