首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《机器学习》入门的26个概念。笔记1

《机器学习》入门的26个概念。笔记1

作者头像
mixlab
发布2018-04-16 17:02:38
5580
发布2018-04-16 17:02:38
举报

最近在读周志华老师的《机器学习》。

一开篇就理清了基本的概念,比如数据集、示例、样本、属性、学习、训练、预测、标记、分类、回归等等让初学者头晕等概念。

我把这些概念摘录了下:

1、数据集(data set)

一组记录的集合称为data set

{色泽=青绿;根蒂=蜷缩;敲声=浊响},{色泽=乌黑;根蒂=稍蜷;敲声=沉闷},{色泽=浅白;根蒂=硬挺;敲声=清脆},……,

2、示例(instance)或样本(sample)、特征向量(feature vector)

每条记录称为一个instance或sample;

对应于样本空间(feature space),每条记录也称为feature vector。

{色泽=青绿;根蒂=蜷缩;敲声=浊响}

3、属性(attribute)或特征(feature)

反映事件或对象在某方面的表现或特质的事项,称为attribute或feature

色泽

4、属性值(attribute value)

属性的取值,称为attribute value

青绿

5、属性空间(attribute space)或样本空间(sample space)、输入空间

属性构成的空间,称为attribute space

把色泽、根蒂、敲声作为三个坐标轴,则它们构成一个用于描述西瓜的三维空间——属性空间

6、维数(dimensionality)

上述例子维数为3.

7、学习(learning)或训练(training)

从数据中学得模型的过程称为learning

这个过程通过执行某个学习算法来完成。

8、训练数据(training data)、训练集(training set)

训练过程中所用的数据称training data,

组成的集合称为training set,对应于data set,

9、训练样本(training sample)、训练示例(training instance)或训练例

对应于data set的sample

10、假设(hypothesis)

学得模型对应了关于数据的某种潜在的规律,称为hypohtesis

11、真相或真实(ground-truth)

潜在规律自身,称为ground-truth

12、学习过程就是为了找出或逼近真相。

13、预测(prediction)

仅有示例数据是不够的,要建立预测模型,我们需要获得训练样本的“结果”信息,

((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)

好瓜,称为标记(label)

14、样例(example)

拥有了标记信息的示例,称为example

15、标记空间(label space)或输出空间

16、分类(classification)

我们欲预测的是离散值,例如“好瓜”,“坏瓜”,这种学习任务称为classification

17、回归(regression)

预测的为连续值,例如西瓜的成熟度0.95,0.37,0.56

18、二分类(binary classification)

只有2个类别的分类。

正类(positive class)、反类(negative class)(负类)

19、多分类(multi-class classification)

20、测试(testiing)

学得模型后,使用其进行预测的过程,称为testing

21、测试样本(testing sample)、测试示例(testing instance)或测试例

22、聚类(clustering)

将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);

这些自动形成的簇可能对应一些潜在的概念划分,如浅色瓜、深色瓜、甚至本地瓜、外地瓜。

23、监督学习(supervised learning)和无监督学习(unsupervised learning)

classification与regression是supervised learning的代表;clustering是unsupervised learning的代表;

24、泛化(generalization)

学得模型适用于新样本的能力,称为generalization能力。

25、归纳(induction)与演绎(deduction)

从特殊到一般的泛化过程,即为归纳;

从一般到特殊的特化(specialization),即为演绎。

从样本中学习,称为归纳学习(inductive learning)

26、概念(concept)

广义的归纳学习相当于从样例中学习,狭义的归纳学习则要求从训练数据中学得概念(concept),因而称为概念学习或概念形成。

要学得泛化性能好且语义明确的概念实在太困难了,现实常用技术大多是产生“黑箱”模型。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技Mix设计Lab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档