前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习的基本概念

机器学习的基本概念

作者头像
用户3147702
发布2022-06-27 12:59:09
2680
发布2022-06-27 12:59:09
举报
文章被收录于专栏:小脑斧科技博客

1. 概述

随着机器学习越来越广泛的进入我们的生活,机器学习对我们生活的影响越来越大。 作为一个计算机行业的工作者,机器学习学科的学习是必不可少的。 说来惭愧,博主本是智能科学与技术专业毕业,《机器学习》《模式识别》《智能科学导论》等课程均是博主的专业课,但是由于长时间没有从事相关工作,早已将这些理论忘的差不多了,如今想要重拾起来,一窥其中的奥秘。

2. 什么是机器学习

周志华的《机器学习》一书中指出:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的学科。 机器学习是通过“模型”处理“经验”(即数据)的学科。 机器学习的主要任务是分类和预测,例如下图中:

  • 用什么样的曲线函数可以最大程度的区分两种颜色的点?这就是一个分类问题
  • 黄色的点如果是下一个出现的点,那么会是什么颜色的呢?这就是一个预测问题

3. 基本术语

3.1. 数据集与样本

要进行机器学习,先要有数据,数据记录的合集被称为数据集(data set),每条数据记录是关于一个事物或事件的描述,被称为一个“示例”(instance)或“样本”(sample)

3.2. 样本空间与特征向量

反映事物或事件在某方面的表现或性质的事项称为“属性”(attribute)或“特征”(feature),属性上的取值被称为“属性值”,多个属性构成“属性空间”或“样本空间”,每个样本在属性空间中可以被映射成一个坐标向量,被称为“特征向量”,特征空间中的属性个数被称为“维数”。

3.3. 训练与学习

从数据中得到模型的过程被称为“训练”或“学习”,这个过程通过执行某个机器学习算法完成,训练中使用的数据被称为“训练数据”,每个样本被称为“训练样本”,训练样本组成的集合被称为“训练集”。 学得的模型对应了数据的某种潜在规律,被称为“假设”,这种潜在规律自身被称为“真实”或“真相”。 想要让计算机通过训练数据的特征来获得这些特征指向的结果,我们就要对训练数据进行标记,拥有标记数据的示例就被称为“样例”,样例是 (xi, yi) 组成的,yi 组成的空间就被称为“标记空间”或“输出空间”。

4. 学习任务的分类

4.1. 分类、聚类和回归

1. 分类 — 如果我们要通过西瓜的特征来区分“好瓜”和“坏瓜”,这就是一个分类的学习任务 2. 回归 — 如果我们的目标是预测西瓜的成熟度(从 0 到 1 的连续值),那么,这就是一个“回归”任务 3. 聚类 — 将西瓜潜在的属性进行聚类,得到“浅色瓜”、“深色瓜”的区分,但在机器学习开始前,我们事先并不知道“浅色瓜”与“深色瓜”的区分原则

聚类过程中,机器学习算法会自动形成若干个特征组,每个特征组被称为“簇”。

4.2. 监督学习和无监督学习

通过训练数据是否拥有标记信息,学习任务可以分为“监督学习”和“无监督学习”。 分类和回归是“监督学习”的代表,聚类则是“无监督学习”的代表。

5. 训练结果的评估

机器学习的目标是得到的模型能够很好地适用于新样本,这样的能力就被称为“泛化能力”。 一般来说,训练样本越多,我们得到的分布信息就越多,泛化能力就越强。

6. 参考资料

周志华 《机器学习》。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小脑斧科技博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 概述
  • 2. 什么是机器学习
  • 3. 基本术语
    • 3.1. 数据集与样本
      • 3.2. 样本空间与特征向量
        • 3.3. 训练与学习
        • 4. 学习任务的分类
          • 4.1. 分类、聚类和回归
            • 4.2. 监督学习和无监督学习
            • 5. 训练结果的评估
            • 6. 参考资料
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档