<机器学习>西瓜书,读书笔记

云时之间

发布于 2018-04-11 13:38:00

9040

发布于 2018-04-11 13:38:00

文章被收录于专栏：云时之间

机器学习的发展阶段

1:推荐书目:周志华<机器学习西瓜书>,李航教授<统计学习方法>,这两本书都用简单的方式介绍了一批重要并且常用的机器学习算法

机器学习所发展的几个重要的阶段:

1符号学习,在人工智能发展的早期,机器学习的技术内涵基本都是符号学习,转折点发现在二十世纪九十年代,统计机器学习的出现,最近几年的人工智能在很大程度上都集中在与统计学和大数据,并且很多的科学家都相信,未来的机器学习的未来都将要转向更加基本的认知科学研究,但是这将需要更长的时间进行探索.

2:统计机器学习并不会一帆风顺,统计机器学习算法都是基于样本数据独立同分布的假设.但是很多人提出了独立同分布的条件对于机器学习来说是必须的么?不过我反而认为前些时候出现的迁移学习会给这个问题带来一定的解决方法.尽管现在迁移学习还需要要求双方需要具备独立同分布的条件,但是不同分步之间的迁移学习也许会提前出现.

3:最近出现的比如深度学习和无终止学习等等,在社会上有很多的关注,其实有很多的学者们都在认为深度学习掀起的热潮都大于了它本身的贡献.并且目前现状在理论和技术上并没有太大的创新的前提下,只不过是由于硬件的技术的革命,计算机的速度大大的提高了,从而使人们有可能采用比原来更加复杂的算法,获得比之前更加精细的结果.并且现在深度学习主要适合用于神经网络,在现在各种机器学习的算法百花齐放的今天,其实它的应用范围还是比较有限的,并且现在统计学习的思想在机器学习的领域依旧被充分地使用.

2:计算机利用经验

在计算机利用系统中,经验通常用数据的形式存在,因此机器学习所研究的主要内容,是关于计算机在数据中产生模型的算法,即学习算法,拥有了学习算法,当我们把我们的经验数据提供给他,模型就会给我们提供相应的判断.如果说计算机科学是研究关于算法的学问,那么机器学习可以说是关于学习算法的学问.而模型就可以泛指从数据中学到的结果,有文献用模型指全局性的结果,而用模式指局部性结果(例如一条结果)

Mitchell提出了一个更加可以形式化的定义:

假设可以用P来评估计算机程序在某种任务类T中的任务获得性能的改善,则我们就说关于T和P,该程序对于E进行了学习.

经典的术语的集合:

1:数据集:记录的集合称为数据集,其中每条记录是关于一个事件或者对象的一个描述,可以称之为事例或者样本,反映事物或者对象在某些方面的表现或者性质的事项就可以称为属性或者特征,属性张成的空间可以属于属性空间,样本空间或者输入空间.比如我们把三个属性作为三个坐标轴,则他们可以张成一个可以用于描述这件实物的一个三维的空间,每个属性构成的量其实都可以找到自己的坐标位置.由于在空间中每一个点都对应一个坐标向量,因此我们可以把一个事例成为特征向量.

2:有时候整个数据集也可以称为一个样本,因为他们也可以看做一个样本空间的一个采样,同时可以通过上下文的判断可以看出样本是单个事例还是数据集.

3:从数据中学得模型的过程叫做学习或者训练,这个过程通过执行某个学习算法完成.训练过程中使用的数据叫做训练数据,其中的每个样本称为训练样本.训练样本组成的集合称为训练集,学得模型对应了数据存在的某种假设依据,因此也称为假设.这种潜在规律自身则成为真相或者真事.学习过程就是为了找出或者逼近真相,模型有时候称为学习器,可以看做学习算法给定数据和参数空间的实例化.(训练样本有时候也称为训练事例)

4:学习算法通常可以有参数需设置,使用不同的参数值或者训练数据,将产生不同的结果,关于事例结果的信息,例如好瓜,可以称之为标签,拥有了标记信息的示例,可以称之为样例.一般的(Xi Yi)表示为第i个样例,其中Yi是属于Y的示例Xi的标记,则Y是所有标记的集合,也称为标记空间或者输出空间.如果我们想要预测离散值,比如说”好人””坏人”,这样的学习任务就可以称之为分类,想要预测的是连续值,比如西瓜成熟度0.7 0.6之类的,这样的学习任务就叫做回归.对于只涉及两个级别的’二分类’任务,一般称一个类是正类,另一个类是反类,当涉及多个级别的时候,就可以称为多分类.

5:学得模型之后,使用其进行预测的过程称为测试,被预测的样本称为测试样本,例如在学得f以后,对应测试列x,可以得到测试项目y=f(x).我们还可以对这些样本进行聚类,即将训练集中的样本分成若干个组,这样每个样本就可以称为一个簇,这样自动形成的簇可能会对应一些潜在的概念的划分.在这样的学习过程中,可以有助于我们了解数据的内在的规律,更为深入的分析建立数据的基础.并且在聚类学习中,一些概念我们是不知道的,而且学习过程中使用数据样本通常不具有标记信息.

根据训练数据是否具有标记信息,学习任务大概可以分为下列两大类,”监督学习”和”无监督学习”,分类和回归是前者的代表,而聚类是后边的代表作.而监督学习和无监督学习也称为有导师学习和无导师学习,更加需要注意的是,机器学习的目的是使学得的模型可以更好的适用于新的样本,而不仅仅是在这些训练样本上的工作做得很好;即便对于聚类这样的无监督学习任务,我们也希望学得的簇可以适用于没在训练集出现的样本,学得的模型可以适用于学得新样本的能力,称为泛化,因此具有强烈的泛化能力的模型可以很好的适用于整个样本空间.尽管有时候训练集通常只是训练样本中一个很小的采样,我们仍然希望他们能很好的反映出整个样本空间的特性,否则就很难在训练集上学得的模型能在整个样本空间上都工作的很好.一般而言,训练样本越多,我们能得到的关于未知分步的信息也就越多,这样也就越有可能通过学习获得具有强烈泛化能力的模型.

6:归纳学习:归纳和演绎是科学推理的两个基本手段,前者是特殊到一般的泛化过程,即从具体的事实归纳出一般性的规律,而后者则是从一般到特殊的特化过程,即从基础原理推理到具体的状况.就好比从样例中进行学习,就是一个很显然的归纳的过程,这也就是所谓的归纳学习.

归纳学习也有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练集中学得概念,因此也称为概念学习和概念形成.概念模型中最基本的是布尔概念模型.

7:假设区间学习:我们可以把学习的过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样本判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就可以确定了.对于如何对假设空间进行搜索,其实有很多的策略,例如自顶向下,从一般到特殊,或者从下到顶,从特殊到一般,搜索过程可以不断删除与正例不一致的假设,和或者与反例一致的假设,最终将会获得与训练集数据一致的假设(即对所有训练数据样本能够进行正确判断的假设),这就是我们学得的结果.但是在现实过程中我们会面临很多的假设空间,但是学习过程是针对很多的有限样本训练集进行的,因此可能有多个假设和训练集一致的假设集合,我们称之为版本空间.

8:归纳偏好:通过学习得到的模型对应了假设空间的一个假设,在机器学习算法中对于某种类型假设的偏好,称为归纳偏好,(注意:尽可能特殊”适用情形可能少”,尽可能一般即”适用情形尽可能多”),对于属性的选择,也称为特征选择,但是机器学习中特征选择仍是基于训练样本的分析进行的,但是我们有时候也可以基于某种领域知识而产生归纳的偏好.

归纳偏好可以看做学习算法自身有一个可能很庞大的假设空间中对假设进行启发和价值观,其实可以使用奥卡姆剃刀的原则,(如果有多个假设和观察一致,则选哪个最简单的哪个),事实上,归纳偏好对应了学习算法本身所作出关于什么模型更好地假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好能否与问题相匹配,大多数直接决定了算法是否可以取得好的性能.

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.02.19 ，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习