机器学习概述与算法介绍(二)

  1. 机器学习概述
  2. 机器学习基本概念
  3. 机器学习基本流程与工作环节
  4. 机器学习中的评估指标
  5. 机器学习算法一览

3. 机器学习基本流程与工作环节


3.1 机器学习应用几大环节

预测模型

image

机器学习算法 / 数据

机器学习的应用工作是围绕着数据与算法展开的

3.2 机器学习不同阶段与作用

数据预处理 Preprocessing

  • 特征抽取
  • 幅度缩放
  • 特征选择
  • 维度约减
  • 采样

模型评估 Evalution

  • 模型选择 Model Selection
  • 交叉验证 Cross-Validation
  • 结果评估 Performance Metrics
  • 超参选择 Hyperparameter Optimization

image

数据预处理 / 模型学习 / 模型评估 / 新样本预测

image

要点总结

  • 数据驱动方法:数据+机器学习算法 = 预测模型
  • 机器学习应用阶段
    1. 数据预处理
      • 数据采样、数据切分、特征抽取、特征选择、降维
    2. 模型学习
      • 超参选择、交叉验证、结果评估、模型选择、模型训练
    3. 模型评估
      • 分类、回归、排序评估标准
    4. 模型上线

4. 机器学习中的评估指标


4.1 机器学习的目标

image

Q: 什么模型好? A: 泛化能力强! 能很好地适用于没见过的样本 例如,错误率低、精度高 然而,我们手上没有未知的样本...... 案例 From 周志华《机器学习》

4.2 机器学习的评估方法

我们手上没有未知的样本,如何可靠地评估?

关键: 获得可靠的“测试集数据”(test set) ?

测试集(用于评估)应该与训练集(用于模型学习)“互斥”

常见方法:

  • 留出法(hold-out)
  • 交叉验证法(cross validation)
  • 自助法(bootstrap)

1. 留出法

注意点:

  • 保持数据分布一致性 (例如: 分层采样)
  • 多次重复划分 (例如: 100次随机划分)
  • 测试集不能太大、不能太小 (例如:1/5~1/3)

| 全 量 数 据 集 |

| 测试集 | 训练集 |

2. k折交叉验证

image

典型的 10折交叉验证

3. 自助法(bootstrap)

基于“自助采样”的方法(bootsrap sampling) 别称:“有放回采样”、“可重复采样”

约有 36.8% 的样本不出现

image

  • 训练集与原样本集同规模
  • 数据分布有所改变

包外估计(out-of-bag estimation)

  • 性能度量(performance measure)是衡量模型泛化能力的数值评价标准,反映了当前问题(任务需求)
  • 使用不同的性能度量可能会导致不同的评判结果

关于模型“好坏”的判断,不仅取决于算法和数据, 还取决于当前任务需求。

image

比如:回归(regression) 任务常用均方误差:

image

4.3 机器学习的评估度量指标

  • 分类问题的常用性能度量
    • 错误率:

    image

    • 精度:

    image

  • 分类问题的常用性能度量
    • 二分类混淆矩阵

    image

    • 查准率(准确率):

    image

    • 查全率(召回率):

    image

    • 查准率 vs. 查全率

    image

    • F1值

    image

    image

    image

  • 分类问题的常用性能度量
    • ROC && AUC

    image ROC (Receiver Operating Characteristic) Curve [Green & Swets, Book 66; Spackman, IWML’89] Area Under ROC Curve AUC (Area Under the ROC Curve) AUC越大,结果越好

    image

    image

    image

    image

    • MAE(Mean Absolute Error) 平均绝对误差

    image

    • MSE(Mean Square Error) 均方误差

    image

    • RMSE(Root Mean Square Error) 均方根误差

    image

    • R平方

    image

要点总结

  • 机器学习目标
    • 拿到有泛化能力的“好模型”
  • 机器学习的评估方法
    • 留出法、交叉验证法、自助法
  • 机器学习的评估度量标准
    • 分类问题
  • 错误类、精度、召回率/准确率、混淆矩阵、F1值、AUC
    • 回归问题
  • MAE、MSE、RMSE、R平方

5. 机器学习算法一览


5.1 机器学习算法一览

image

image

5.2 机器学习算法可视化理解

不同算法在完成分类与回归问题时候,有不同的处理方式。

详见课程动态演示

image

image

image

image

image

要点总结

  • 机器学习算法
    • 监督学习
      • 分类:K最近邻、逻辑回归、朴素贝叶斯、支持向量机、树模型...
      • 回归:线性回归、多项式回归、岭回归、树模型回归...
    • 无监督学习
      • 聚类:K-means,层次聚类、密度聚类、GMM...
      • 关联规则:Fpgrowth
  • 机器学习算法可视化理解
    • 分类问题
      • 不同的算法在尝试生成不同的决策边界,从而完成分类
      • 回归类问题有不同的拟合方式

附 结合微专业课程的学习


数学基础

讲授具体算法时对涉及数学部分有针对的查漏补缺

算法理解

理解算法核心概念与原理,不同算法差异,不同场景与算法选择

编程基础

结合课程算法的配套案例与代码实现,巩固编程能力

动手实践

结合微专业综合应用部分,案例与机器学习应用“套路”学习

积累项目经验

组织大家积极参与数据科学比赛和讨论

附 参考文献/Reference


  •  Prof. Andrew Ng. Machine Learning. Stanford University
  •  李航,统计学习方法,清华大学出版社,2012
  •  周志华,机器学习,清华大学出版社,2016
  •  Scikit-learn,http://scikit-learn.org/stable/index.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

直观理解深度学习卷积部分

近几年随着功能强大的深度学习框架的出现,在深度学习模型中搭建卷积神经网络变得十分容易,甚至只需要一行代码就可以完成。

1212
来自专栏AI科技评论

开发 | 三年来,CNN在图像分割领域经历了怎样的技术变革?

AI科技评论按:卷积神经网络CNN是深度学习中最典型的算法之一,它可以将图片通过一系列的卷积、非线性、池(采样)、全连接层之后得到一个输出。这篇文章中,我们会一...

3936
来自专栏AI深度学习求索

传统特征:HOG特征原理

为了减少光照因素的影响,首先需要将整个图像进行规范化(归一化),有效地降低图像局部的阴影和光照变化。

1513
来自专栏应用案例

从传统方法到深度学习,人脸关键点检测方法综述

人脸关键点检测是人脸识别和分析领域中的关键一步,它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。近些年来,深度学习方法由...

1.2K8
来自专栏机器之心

从传统方法到深度学习,人脸关键点检测方法综述

5265
来自专栏ATYUN订阅号

了解学习速率以及它如何提高深度学习的表现

学习速率是深度学习中的一个重要的超参数,如何调整学习速率是训练出好模型的关键要素之一。这篇文章将着重说明以下几点: 什么是学习速率? 它的意义是什么? 如何系统...

3845
来自专栏机器之心

盘点 | 对比图像分类五大方法:KNN、SVM、BPNN、CNN和迁移学习

选自Medium 机器之心编译 参与:蒋思源、黄小天、吴攀 图像分类是人工智能领域的基本研究主题之一,研究者也已经开发了大量用于图像分类的算法。近日,Shiyu...

1K8
来自专栏AI研习社

你必须知道的CNN在图像分割领域的技术变革史!

CNN 远远不止于处理分类问题。 这篇文章中,我们会一起来看在图像实例分割领域,CNN 的发展简史:它可被如何使用,以得到惊人的结果。 在 2012 年,Ale...

3907
来自专栏人工智能头条

KNN(K-近邻算法):靠跟自己关系的远近来做预测的算法

假设你是某影视网站序员中的一员。你们网站的用户热衷于观看《延禧攻略》《如懿传》这类古装宫廷剧,而你们平台有机会花1000万买下《扶摇》的版权。

1414
来自专栏计算机视觉战队

尺度不变人脸检测器(S3FD-Single Shot Scale-invariant Face Detector)

今天讲尺度不变人脸检测前之前,我想讲解下一位热心研究者的问题,可以简单讲解下,希望也可以帮助其他读者,谢谢! ? ? 这样的人脸尺度怎么去实现的,其实很简单,如...

6124

扫码关注云+社区

领取腾讯云代金券