前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习之不得不知晓的概念

机器学习之不得不知晓的概念

作者头像
opprash
修改2019-08-28 15:50:42
3260
修改2019-08-28 15:50:42
举报

在我们学习的过程中都是从简到繁的一个过程,首先是先从基本的概念、理论到整个知识框架的细枝末节,所以学习就是要从最基本的东西开始——概念,在理解了相关的概念和定义之后才会更好的理解整个知识框架的架构,到最后掌握整个知识。

机器学习的一些基本概念:

数据集(data set):

数据集顾名思义就是数据的集合,假设我们用三个特征,颜色,根蔕,响声来描述西瓜的特片,并且拿到几十万条记录,其中的一条记录为:

代码语言:javascript
复制
色泽=光亮,根蔕=坚硬,响声=悦耳

这个时候我们就可以用一个二维数组waterMenlon[200000][3]来描述这个数据集。,其中200000表示有200000个样本,3表示三个特征。

实例(instance):

每条记录或者说每一个样本就是一个实例。

属性(attribute):

又称为特征,描述事物的摸一个特征,比如一个人的身高,体重,年龄等

样本空间(simple place):

又称为属性空间,或输入空间,就是已经出现的一个所有实际属性的集合空间,比如上面说的几十万条组成的一个空间,还有一个概念就是假设空间,它是理论上的所有可能值构成的集合空间。

特征向量(feature vector):

将每一个实例的所有属性标记成一个坐标向量的过程,也就是以属性来作为坐标轴,每个实例在这个坐标空间中的位置(x1,x2,x3)。

维数(dimensionality):

每个特征就是一维,比如三个特征就是三维的。

标记(labei):

关于示列结果的信息,比如判断一个西瓜是好瓜,那么这个习惯就拥有了标记示列(example)。一般用xi,yi来表示,yi表示第i个样例,其中yi就是xi的标记。

学习(learning):

从数据中学得模型的过程又称为训练,一般是指根据数据集的特征和每条特征的标记,经过计算得到一个f通过这个f去预测接下来的习惯的好坏程度,这个过程就是学习。

训练数据(training data):

学习过程所使用到的数据,根据这些数据可以得出一个f,也就是模型,与之相对应的是测试数据,就是根据训练的模型进行测试的数据。

回归(regression):

如果预测的是连续值,例如预测西瓜的成熟度 ,它必然是个大于0的小数值,比如成熟度为0.9,0.75,抑或是根据房屋面积,使用年限两个特征预测某个房屋的价值,类似这种预测称为回归。回归有些不好理解,可以理解为拟合吧,根据已有数据集,得到一条曲线f,然后再来一个Xm,带到f中,得到ym

分类(classification):

如果预测的是连续值,比如0,1,2,3这一类离散值,例如好瓜坏瓜称为学习任务分类,比如分类的结果为两类,通常其中一个为正分类,另外一个就是反类,分类其实还有一个名字——逻辑回归。

聚类(clustering):

没有标记的记录集,我们如果想要从这些数据中挖出一些有用的东西来,然后我们根据默写特征和算法将训练中的西瓜分为若干组,自动形成几蔟,这些蔟就可能对应一些潜在的概念,这些概念是我们实现不知道的。

泛化能力:

泛化能力是指学得的模型适用于新样本的能力,在经过模型训练后得到的模型在预测新样本时所表现的能力,比如我们在得到一个模型只有去预测新样本,如果准确率越高,那说明模型的泛化能力好,反之就是泛化能力差。

泛化能力不足的原因之一就是过拟合,过拟合导致数据在测试集上面表现非常好,但在新数据上面表现能力差。

泛化能力差
泛化能力差
泛化能力好
泛化能力好

归纳偏好(inductive bias):

机器学习算法在学习过程中对某种类型假设的偏好,任何一个有效的机器歇息算法必有其归纳偏好,或者说这个算法本身就是为了解决某一类为题而产生的,而这个问题就是归纳偏好,所以算法没有好坏之分,而是应该说这个算法的归纳偏好属于什么,因为每一个算法其实就是代表一种归纳偏好。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 机器学习的一些基本概念:
    • 数据集(data set):
      • 实例(instance):
        • 属性(attribute):
          • 样本空间(simple place):
            • 特征向量(feature vector):
              • 维数(dimensionality):
                • 标记(labei):
                  • 学习(learning):
                    • 训练数据(training data):
                      • 回归(regression):
                        • 分类(classification):
                          • 聚类(clustering):
                            • 泛化能力:
                              • 归纳偏好(inductive bias):
                              领券
                              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档