前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习笔记

机器学习笔记

作者头像
企鹅号小编
发布2018-02-01 14:56:26
4940
发布2018-02-01 14:56:26
举报
文章被收录于专栏:人工智能人工智能

基本术语

数据集(data set): 一组数据的集合

样本/示例(instance/sample):数据集中的一个事件或对象

属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项

属性值(attribute value):属性上的取值

属性空间/样本空间/输入空间(attribute space/sample space):属性张成的空间

特征向量(feature vector):因为空间每个点对应一个坐标向量,所以也将一个示例称为“特征向量”

令D = 表示包含m个示例的数据集,每个示例d个属性描述,则每个示例xi=(xi1; xi2; ...;xid)是d维样本空间X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。

学习/训练(learning/training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成

训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);这种潜在规律自身则称为“真相”或“真实”(groud-truth),学习的过程就是为了找出或逼近真相。

拥有标记信息的实例称为样例(example),一般用(xi, y)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”

如果预测的是离散值,则该类学习任务称为“分类”(classification);

若预测的为连续值,则该类学习任务称为“回归”(regression);

对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个称为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。

一般,预测任务是希望通过对训练集{(x1, y1), (x2, y2), ..., (xm, ym)}进行学习,从而建立一个从输入空间X到输出空间Y的映射f:XY

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档