学习
实践
活动
工具
TVP
写文章

机器学习概述与算法介绍(二)

机器学习概述

机器学习基本概念

机器学习基本流程与工作环节

机器学习中的评估指标

机器学习算法一览

3. 机器学习基本流程与工作环节

3.1 机器学习应用几大环节

预测模型

机器学习算法 / 数据

机器学习的应用工作是围绕着数据与算法展开的

3.2 机器学习不同阶段与作用

数据预处理 Preprocessing

特征抽取

幅度缩放

特征选择

维度约减

采样

模型评估 Evalution

模型选择 Model Selection

交叉验证 Cross-Validation

结果评估 Performance Metrics

超参选择 Hyperparameter Optimization

image

数据预处理 / 模型学习 / 模型评估 / 新样本预测

image

要点总结

数据驱动方法:数据+机器学习算法 = 预测模型

机器学习应用阶段

分类、回归、排序评估标准

超参选择、交叉验证、结果评估、模型选择、模型训练

数据采样、数据切分、特征抽取、特征选择、降维

数据预处理

模型学习

模型评估

模型上线

4. 机器学习中的评估指标

4.1 机器学习的目标

image

Q: 什么模型好?

A: 泛化能力强! 能很好地适用于没见过的样本

例如,错误率低、精度高

然而,我们手上没有未知的样本......

案例 From 周志华《机器学习》

4.2 机器学习的评估方法

我们手上没有未知的样本,如何可靠地评估?

关键: 获得可靠的“测试集数据”(test set) ?

测试集(用于评估)应该与训练集(用于模型学习)“互斥”

常见方法:

留出法(hold-out)

交叉验证法(cross validation)

自助法(bootstrap)

1. 留出法

注意点:

保持数据分布一致性 (例如: 分层采样)

多次重复划分 (例如: 100次随机划分)

测试集不能太大、不能太小 (例如:1/5~1/3)

| 全 量 数 据 集 |

| 测试集 | 训练集 |

2. k折交叉验证

image

典型的 10折交叉验证

3. 自助法(bootstrap)

基于“自助采样”的方法(bootsrap sampling)别称:“有放回采样”、“可重复采样”

约有 36.8% 的样本不出现

image

训练集与原样本集同规模

数据分布有所改变

包外估计(out-of-bag estimation)

性能度量(performance measure)是衡量模型泛化能力的数值评价标准,反映了当前问题(任务需求)

使用不同的性能度量可能会导致不同的评判结果

关于模型“好坏”的判断,不仅取决于算法和数据, 还取决于当前任务需求。

image

比如:回归(regression) 任务常用均方误差:

image

4.3 机器学习的评估度量指标

分类问题的常用性能度量

错误率:

image

精度:

image

分类问题的常用性能度量

F1值

image

image

image

查准率(准确率):

image

查全率(召回率):

image

二分类混淆矩阵

image

查准率 vs. 查全率

image

分类问题的常用性能度量

ROC && AUC

image

ROC (Receiver Operating Characteristic) Curve [Green & Swets, Book 66; Spackman, IWML’89] Area Under ROC Curve

AUC (Area Under the ROC Curve)

AUC越大,结果越好

image

image

image

image

MAE(Mean Absolute Error) 平均绝对误差

image

MSE(Mean Square Error) 均方误差

image

RMSE(Root Mean Square Error) 均方根误差

image

R平方

image

要点总结

机器学习目标

拿到有泛化能力的“好模型”

机器学习的评估方法

留出法、交叉验证法、自助法

机器学习的评估度量标准

分类问题

错误类、精度、召回率/准确率、混淆矩阵、F1值、AUC

回归问题

MAE、MSE、RMSE、R平方

5. 机器学习算法一览

5.1 机器学习算法一览

image

image

5.2 机器学习算法可视化理解

不同算法在完成分类与回归问题时候,有不同的处理方式。

详见课程动态演示

image

image

image

image

image

要点总结

机器学习算法

聚类:K-means,层次聚类、密度聚类、GMM...

关联规则:Fpgrowth

分类:K最近邻、逻辑回归、朴素贝叶斯、支持向量机、树模型...

回归:线性回归、多项式回归、岭回归、树模型回归...

监督学习

无监督学习

机器学习算法可视化理解

不同的算法在尝试生成不同的决策边界,从而完成分类

回归类问题有不同的拟合方式

分类问题

附 结合微专业课程的学习

数学基础

讲授具体算法时对涉及数学部分有针对的查漏补缺

算法理解

理解算法核心概念与原理,不同算法差异,不同场景与算法选择

编程基础

结合课程算法的配套案例与代码实现,巩固编程能力

动手实践

结合微专业综合应用部分,案例与机器学习应用“套路”学习

积累项目经验

组织大家积极参与数据科学比赛和讨论

附 参考文献/Reference

 Prof. Andrew Ng. Machine Learning. Stanford University

 李航,统计学习方法,清华大学出版社,2012

 周志华,机器学习,清华大学出版社,2016

 Scikit-learn,http://scikit-learn.org/stable/index.html

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G015VQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券