首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

周志华《机器学习》读书笔记(一)

周志华《机器学习》

击败AlphaGo的武林秘籍

赢得人机大战的必由之路

人工智能大牛周志华教授巨著

全面揭开机器学习的奥秘

机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。

全书共16 章,大致分为3 个部分:第1 部分(第1~3 章)介绍机器学习的基础知识;第2 部分(第4~10 章)讨论一些经典而常用的机器学习方法(决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习);第3 部分(第11~16 章)为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等.

- 奇幻的旅程,正式开始 -

基本术语及其概念

-01-

机器学习——致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。也可以理解为致力于研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

-02-

示例/样本、属性/特征、属性值、属性控件/样本空间/输入控件、训练样本与训练集、测试样本与测试集等概念。利用下面的西瓜数据集有助于理解上述概念:

(色泽=青绿;根蒂=蜷缩;敲声=浊响)

(色泽=墨绿;根蒂=稍蜷;敲声=沉闷)

(色泽=浅白;根蒂=硬挺;敲声=清脆)

……

西瓜数据集

-03-

拥有标记信息的样本称为样例。我们根据训练样本是否拥有标记信息,可将学习任务分为监督学习和无监督学习两类。分类(预测离散值)和回归(预测离散值)是监督学习的代表;聚类是无监督学习的代表。

-04-

假设空间——所有可能假设组成的空间。根据属性的可能取值,我们可以计算假设空间的大小。

西瓜问题假设空间

版本空间——学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称之为“版本空间”。

西瓜问题版本空间

-05-

归纳偏好——算法在学习过程中对某种类型假设的偏好。

归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式的“价值观”。

奥卡姆剃刀——若有多个假设与观察一致,则选最简单的一个。这是一种常用的、自然科学研究中最基本的原则。

Occam's Razor

-06-

NFL定理(“没有免费的午餐”定理)

对于任意两个学习算法εa和εb,我们都有

NFL定理让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑潜在的问题,则所有的算法都一样好。要谈论算法的优劣,必须要针对具体的学习问题;在某些问题上表现得好的学习算法,在另一些问题上却可能不尽人意,学习算法自身的归纳偏好与问题是否相配,往往会起决定性作用。

模型评估与选择

-01-

在m个样本中有a个样本分类错误,则错误率为E=a/m;相应的,1-E称之为精度。

-02-

误差——学习器的实际预测输出与样本的真实输出之间的差异。

经验误差/训练误差——学习器在训练集上的误差。

泛化误差——学习器在新样本上的误差。

我们希望得到泛化误差小的学习器,但我们事先并不知道新样本是什么样,实际能做的是努力使经验误差最小化。

-03-

过拟合——学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。

欠拟合——学习器对训练样本的一般性质尚未学好。

对于欠拟合情况,可以通过在决策树学习中扩展分支、在神经网络学习中增加训练轮数等方法来解决。

过拟合与欠拟合

-04-

评估方法

留出法——直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。在S集上训练出模型后用T集来评估其测试误差,作为对泛化误差的估计。

训练/测试集的划分要注意:保持数据分布的一致性(分层抽样);进行多次划分取平均。通常将大约2/3~4/5的用本样本用于训练,剩余样本用于测试。

交叉验证法——将数据集D分成k个大小相似的互斥的子集,每次将k-1个子集的并集作为训练集,余下的作为测试集,这样可以进行k次训练和测试,最终返回k个测试结果的均值。通常把交叉验证法称为“k折交叉验证”。通常k的常用取值取为10,称为10折交叉验证。

假定数据集D中包含m个样本,若令k=m,则得到了交叉验证法的一个特例,即留一法(LOO)。留一法不受随机样本划分方式的影响,其评估结果往往被认为比较准确。但是其计算繁琐,仅适用于小样本情况。

自助法——每次随机从数据集D中有放回地取出一个样本,进行m次后,将这m个样本组成新的数据集D',我们将D\D'作为训练集,("\"表示集合减)测试集。

自助法在数据集较小、难以有效划分训练/测试集时很有用,对集成学习等方法有很大好处,但其改变了初始数据集地分布,这会引入估计偏差。

-05-

性能度量——对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准。

针对回归任务最常用的性能度量是均方误差。

-06-

针对分类任务性能度量

错误率和精度

查准率、查全率与F1

分类结果混淆矩阵

上述为分类结果的混淆矩阵,根据其得出如下定义:

查准率P——所有预测正例中真正例所占的比例。

查全率R——所有真实正例中真正例所占的比例。

计算公式

以查全率R为横坐标轴,查准率P为纵坐标轴可绘制P-R曲线,P-R图直观地显示出学习器在样本总体上地查全率、查准率/在进行比较时,若一个学习器地P-R曲线被另一个学习器地曲线完全“包住”,则可断言后者性能优于前者。P-R曲线与y=x的交点称之为“平衡点(BEP)”。

P-R曲线

ROC与AUC

真正例率TPR——真实正例中真正例的比例。

假正例率FPR——真实反例中假正例的比例。

以FPR为横轴,TPR为纵轴绘制ROC曲线,ROC曲线下的面积为AUC。

比较检验

二项检验、交叉验证t检验、McNemar检验

Friedman检验、Nemenyi后续检验

——未完待续——

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180116G09HU700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券