专栏首页计算机视觉机器学习入门书解读-西瓜书以及习题,刷书第一遍开始2018-04-01

机器学习入门书解读-西瓜书以及习题,刷书第一遍开始2018-04-01

今天看了绪论,大概简要介绍了下基本术语。 就想先总结下,首先,这里是地球上,地球上所有人就叫一个数据集,其中有一个我,我就是个样本。在地球上每个人是不同的,暂时还没发现有一个人跟我是一模一样的,我这个样本嘛,有很多属性,有性别,年龄,身高等属性,她表示了小聊子这个人,性别女,身高1.7,身材不错,性格不错。我们把这么多属性用向量表示,这就叫特征向量,小聊子={1,2,1,0,2,3,5,....5},所以说,其实你本身就是个向量哟~~

突然有一天,我梦见,有大BOSS操纵着整个银河系,在他的世界里,我们的存在就是一个培养皿中不同区域的小细菌,哎呀!原来我们真的是一个样本!

现在,我长大了,发现需要一个跟我合得来的朋友,那什么样的朋友适合我,大BOSS帮我总结了下经验,据他所知,喜欢看我写文章的人是适合我的(偷笑),大BOSS其实就是个模型,他每天通过观察培养皿中的情况,从别的细菌那里(训练集),学习到了不少知识,毕竟是有主角光环的小聊子,出生就闪耀着非凡的光芒,但在大BOSS眼里,我只不过是一个测试集中的一个。大BOSS将我与一堆人分在一起,指定一个类别,分类。大BOSS觉得我跟这堆人聊得来的概率是88%,跟那一堆人是77%,给我提供了范围,回归。

终于,我有了一堆好朋友了,通常说物以类聚,人以群分。我们这些好朋友都有着相似的地方,到底是什么地方相似呢,不好说,没有完全正确的说法,心灵相通吧~~这就是聚类。

所以说,分类和回归呢,是有大BOSS监督的,而聚类是无监督的,是数据之间本身深层次的相似。

基本术语结束。后面的例子还是按照西瓜书来讲。

讲一下归纳和演绎。 归纳就是汲取经验,也就是说从个体到一般的过程。而演绎,就像书中所说,我现在已经知道一个定理了,那么我们就把他应用到某个人身上时,从一般情况到特例的过程。所以说,对于书中来预测好瓜的问题,可以这样理解。首先,我有一堆关于西瓜的数据,根据这些数据,我建立了一个模型,这个模型的建立过程其实就是归纳的过程。那么对于一个新的西瓜的属性进来,我怎样判断是好瓜还是坏瓜呢?根据我们建立的模型,我们做出一个推断,那么这个根据模型推断的过程就是一个演绎的过程。

接下来讲一下假设空间,版本空间,说实话,当时,我是晕掉了! 首先,一个假设是啥呢,比如我的眼睛是单眼皮儿还是双眼皮儿,一个假设就是一个属性还有他的各种取值情况。假设空间呢就是一堆属性包含每个属性的取值情况,探讨下,书中的假设空间有65怎么算?首先看4怎么来的,我们知道,色泽有污黑,青绿,浅白,另一种假设是任意属性呦,所以馁,就是四种。类比就是444.再加上“没有好瓜”的这种极端假设。共有65。

版本空间是在我们之前的65中假设中找出一个正确的假设,这个假设他可以描述这个1.1的数据集中是好瓜的情况,可以有很多奥,怎么理解呢?

1.1.png

仅仅看图的话,只要是根蒂蜷缩或者(两种情况),敲声是浊响或者的都是好瓜(两种情况),因为他们每个都减掉了另外两个能够使西瓜变为坏瓜的假设值(硬挺,稍卷和清脆,沉闷)。接下来分析,色泽青绿有可能是好瓜,也有可能是坏瓜,色泽污黑也是可能是坏的,可能是好的,不确定他到底能不能是好瓜,浅白就更没有在数据集中表示了,因为我们要找的是与数据集匹配的版本空间奥,所以对于色泽,只有第四种情况了,就是号,因为数据集中不确定到底是什么色泽决定了他是好瓜。所以,经过根蒂和敲声的组合的话,所以我们有这么几个假设,比如 (A) ,卷曲,浊响。 (B) ,,浊响。 )(C) ,卷曲,(D),。那么这个D,他是否和正确的假设么,答案是不是,因为相当于任意取值,我们发现任意取值时,是符合坏瓜的情况存在,所以去掉D,就剩3中情况了。

归纳偏好是什么意思? 对于1.1我们有了三个版本空间,那么我们选择哪一个属性作为关键属性呢,这个关键属性就是我们的偏好。怎么选择一个好的偏好,奥卡姆剃刀-“若有多个假设与观察一致,则选最简单的那个,与经验观察最一致的 。”但是这个原则并不一定可行,对于NFL总误差与学习算法无关。所以,对于不同的任务,选择的偏好是不一样的!

接下来讨论下绪论的习题

习题一.png

表示好瓜的话,那么我们就看第一行,色泽青绿,可以表示的是(青绿,),根蒂卷曲,可以表示的是(卷曲,),敲声就是(浑浊,*),互相组合就得到

A. 青绿,卷曲,浊响 B. 青绿,卷曲, * C. 青绿, * ,浊响 D. 青绿, * , * E. * ,卷曲, 浊响 F. * , * ,浊响 G. * , 卷曲, * H. * , * , *

为了表示完全好瓜这一项,我们当然要把能够表示坏瓜的情况去掉,所以就是去掉了,*。就是H这项,所以这道题的答案应该是七种。

习题2

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【译】(Introduction部分)Interpretable Machine Learning. A Guide for Making Black Box Models Explainable

    这本书向你解释了怎样让机器学习模型可解释,这章中包含了一些数学公式,但是即使没有这些公式,你也应该能够理解这些方法的思想。这本书并不适合于初学机器学习的同学,如...

    水球喵子
  • Python 函数使用记录,join函数和os.path.join用法

    1.join()函数 语法:‘sep’.join(seq) 参数说明: sep:分隔符。可以为空 seq:要连接的元素序列、字符串、元组、字典等 上面的语法即:...

    水球喵子
  • Python 函数使用记录,join函数和os.path.join用法

    1.join()函数 语法:‘sep’.join(seq) 参数说明: sep:分隔符。可以为空 seq:要连接的元素序列、字符串、元组、字典等 上面的语法即:...

    水球喵子
  • HTML5学习笔记(一)

    1.什么是 HTML5? HTML5 将成为 HTML、XHTML 以及 HTML DOM 的新标准。 HTML 的上一个版本诞生于 1999 年。自从那以后,...

    用户1667431
  • Python最常见的加密方式和python实现(内含网址链接和全套资料)

    我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。

    汤贤
  • Java企业面试——电商项目

    dubbo服务开发流程,运行流程?zookeeper注册中心的作用? 使用流程: 第一步:要在系统中使用dubbo应该先搭建一个注册中心,一般推荐使用zooke...

    Java帮帮
  • 关于highcharts极地图polar不显示line的问题

    最开始就有这个问题,但是一直没有管他。这次因为概况页面UI改版,所以开始着手处理。

    Daotin
  • visual studio 2015安装问题及解决

    运行C++程序时提示错误:“计算机中丢失MSVCP140D.dll,尝试重新安装该程序以解决此问题”

    用户1396155
  • 【从零开始学习YOLOv3】4. YOLOv3中的参数进化

    YOLOv3中的 超参数在train.py中提供,其中包含了一些数据增强参数设置,具体内容如下:

    BBuf
  • 钱辰: 我为什么鼓励你读博士!

    【导读】既昨天分享了李开复老师谈读博士能为你带来什么一文,很多同学受到了很大的鼓舞,反响热烈,今天我们又分享一篇计算机领域钱辰老师所写的一篇文章:我为什么鼓励你...

    WZEARW

扫码关注云+社区

领取腾讯云代金券