机器学习课程笔记(一)


机器学习定义

一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能有所提升。


监督学习

监督学习,意指给出一个算法,其中需要部分数据集已经有正确答案。

1.监督学习--回归问题

在监督学习中有一种要预测一个连续值的输出问题,比如预测房价,如下图所示:

给定房价数据集,对于里面每个占地面积,算法都知道对应的正确房价,然后根据这些已知正确答案的数据集,计算出很多未知价格但知道面积的房子的房价,这类监督学习的问题可以称作回归问题,也可以说回归问题属于监督学习中的一种。

2.监督学习之-分类问题

2.1 单特征分类问题 假设在数据集中,横轴表示肿瘤的大小, 纵轴用0或1来表示肿瘤是良性的还是恶性的,如下图。这里对应的机器学习问题就是,根据肿瘤(Tumor)的大小,你能否估算出一个概率,即肿瘤为恶性或者良性的概率。其实结果就只有0,1两种结果,这类问题可以称为分类问题。 所谓分类问题,其实就是要预测一个离散值输出,结果可能不止两种。

2.2 多特征分类问题 比如在上例中,只是根据肿瘤的大小来预测结果,但是在其它机器学习问题里, 往往有着不只一个的特征和属性。 例如,不仅肿瘤大小对结果有影响,病人的年龄也是其中的因素, 如下图所示,图中恶性肿瘤用叉来表示;良性肿瘤用圈来表示。

其实在许多问题中,用到的不只是三五个特征,经常要用到无数多个特征,非常多的属性。所以,你的学习算法要利用很多的属性或特征、线索来进行预测。

3. 在监督学习中,对于数据集中的每个数据,都有相应的正确答案,(训练集) 算法就是基于这些来做出预测。

总结:监督学习问题可以被归类为回归和分类问题。在回归问题中我们试图预测连续输出中的结果,即将输入变量映射到某个连续函数。在分类问题中,我们试图预测离散输出的结果,即试图将输入变量映射到离散类别。


无监督学习

  1. 在无监督学习中,没有属性或标签这一概念 即所有的数据都是一样的,没有区别。
  2. 无监督学习也即聚类问题,就是对于给定的数据集,且这些数据事先并没有给出确定的答案,而将其中的数据分成不同的聚类。
  3. 无监督学习的应用: 3.1 用来组织大型的计算机集群 3.2 用于社交网络的分析 3.3 用于市场分割 3.4 用于天文数据分析
  4. 无监督学习可以使我们不用或者很少知道结果如何,可以通过基于数据中变量之间的关系对数据进行聚类来推导出结构。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场10

OK!计算机视觉论文速递系列正式重启,CVer将两/三天更新一次速递推文,如果时间充足,会做到每日一更。

16660
来自专栏达观数据

技术干货 | 一文详解高斯混合模型原理

高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(E...

50660
来自专栏算法channel

深度学习|神经网络模型简介和梯度下降求解

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

45480
来自专栏一名叫大蕉的程序员

卷积神经网络CNN的各个层做的事情No.30

我是小蕉。 今天跟大家聊聊卷积神经网络各个层实际做的事情以及原理。 马老大在一个峰会说:"我们之前做了很多算法的优化,但是现在有了深度学习,可能用一个算法,不断...

309100
来自专栏SIGAI学习与实践平台

基于深度学习的目标检测算法综述

目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮...

47220
来自专栏机器之心

学界 | 马里兰大学论文:训练深度神经网络中的一致性难题

36750
来自专栏iOSDevLog

线性回归

20430
来自专栏AI科技评论

动态 | 谷歌大脑新奇发现:分类误差为零的模型就不存在对抗性样本了

AI 科技评论按:谷歌大脑近期的一篇新论文对对抗性样本做了多方面的理论性研究,不仅首次发现了简单数据分布下对抗性样本的分布特性,而且得出了「分类误差为零的模型不...

24520
来自专栏算法channel

2000字总结3种项目和面试中常用的集成学习算法

俗话说,“三个臭皮匠,顶个诸葛亮”,多个比较弱的人若能有一种方法集中利用他们的智慧,也可以达到比较好的效果,这就是集成学习的思想。

8500
来自专栏机器之心

ICML 2018 | Petuum提出新型正则化方法:非重叠促进型变量选择

在评估模型质量的各种指标中,有两个比较常用:(1)在未曾见过的数据上的预测准确度;(2)对模型的解释。对于(2),科学家更喜欢更简单的模型,因为响应和协变量之间...

10830

扫码关注云+社区

领取腾讯云代金券