首页
学习
活动
专区
工具
TVP
发布

机器学习——术语

假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根=蜷缩;敲声=浊响),(色泽=乌黑;根=硬挺;敲声=清脆)……每对括号内是一条记录,这组记录的集合称为一个数据集(dataset,可译为资料集或数据集,不要叫成“数据套”),每条记录事件或对象为一个示例(instance)样本(sample),反映事件或对象的表现或性质的称为属性(attribute)或特征(feature),其取值称为属性值 (attribute value),属性张成的空间称为属性空间(attribute space),样本空间(sample space)或输入空间。

令D=表示包含m个示例的数据集,每个示便由d个属性描述,则每个示例xi=(xi1,xi2…xid)是d维样本空间X的一个向量。

从数据 中学得模型的过程称为学习(learning)或训练(training),这个过程使用的数据 称为训练数据(training data),基中每个样本称为一个训练样本(training sample),训练 样本组成的集合为训练集(training set),学得模型——对应了关于数据的某种潜在的规律称为假设(hypothesis),这种潜在规律自身称为真相(ground-truth),学习模型就是为了找出真相。模型也可称为学习器(learner)。

对于瓜的分类,如果我们分为好瓜,烂瓜,这种结果信息我们称为标记(label),样本(sample)+标记(label)就成了样例(example)。例如,第i个样例为 (xi, yi)。Y是所有标记的集合,称为标记空间(label space)或输出空间。

如果我们预测的是离散值,则此类学习任务为分类(classification),连续值则是回归(regression);学得模型后,使用进行预测的过程称为测试(testing),被预测的样本称为测试样本(testing sample)。例如在学得f后,对应测试例 x,可得到其预测标记y=f(x)。

我们还可以对样本集做聚类(clustering),就是分成若干簇(cluster),分出的类的概念可能是我们事先不知道的,比如:理性的瓜,性感的瓜等等。

若根据是否拥有标记信息,学习任务大致可分为监督学习(supervised learning)和无监督学习(unsupervised learning),前者的代表是分类和回归,后者的代表是聚类。

模型能否适应新的样本,要看它的泛化(generalization)能力。

假设空间

归纳(induction)与演绎(deduction),前者是从特殊到一般的泛化过程,后者是从一般到特殊的特化(specialization)过程。从样例中学习也称为归纳学习(inductive learning)。

为了理解样本空间和版本空间,我们假设这样一个数据集:

衡量一个开心果是不是能令人真的开心,有这样几个特征和属性值的取值:

大小:大;中;小;

色泽:白;黄;黑;

性格:温顺;暴躁;

学识:学富五车;文献小能手;只会看公众号;

这样四个属性,现在我们要构建一个合适的假设空间来构建一个择偶观择果观,那么有四个属性可以选择,比如大小有:大,中,小三种选择,这里要注意一下,也有可能价值观里认为这个无关紧要,所以有四种可能;另外,加上一个极端的情况,这四个评判准则选出来的都不是想要的开心果,都不能令人开心。所以假设空间的规模大小为4*4*3*4+1=193。

有很多策略来对空间里这些假设进行“筛选”,利用样本可以把假设空间里的假设一个个排除筛选。因为训练样本是有限的,所以有时会存在多个假设满足这些条件,这些假设我们叫做“训练集合”,或者版本空间(version space)。

还没完……

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180220G06M2Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券