文章/答案/技术大牛

发布

首页视频I_理论/025_尚硅谷_机器学习模型和算法_决策树

I_理论/025_尚硅谷_机器学习模型和算法_决策树

2022-12-022022-12-02 16:02:22播放44

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据技术之机器学习和推荐系统/4.视频/I_理论/025_尚硅谷_机器学习模型和算法_决策树.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们给大家讲另外一种分类模型，这种分类模型就是决策树了，呃，决策树这种模型呢，其实应用还是非常广泛的，而且直观的理解其实非常简单，比如说大家看一下啊，左边的这一个，大家看这是不是就是一棵树结构啊，呃，所以决策树其实就是从上到下是不是有各种各样的判断条件去做条件筛选啊，就是这样的一棵树，大家看一眼，这是在干嘛呢？这是相亲，对，这是不是就是在相亲啊？哎，大家一眼就能看出来是干嘛，对不对？呃，大家是根据什么判断出来的，根据经验啊，一看大家都是经验丰富的啊，所以大家看到其实它比较明显是什么呢？是不是最后的这个黄色的节点就是叶子节点，这是不是相当于我们最后分类的一个结果啊，它分出来是什么类呢？是不是两类键或者。
01:00
不见对不对？哎，对，通过这个大家就看出来，这是一个相亲的一个角色树模型，那他每一次再去做筛选的时候，这个数每一个节点去做判断的时候，判断什么了呢？是不是就是要看看这个相相亲对象它的各方面的条件，这是不是就相当于我们输入的X啊，它有哪些特征，是不是要输入进来，最后我们要得到一个Y，见还是不见对不对啊，所以啊，当然这个看起来这是一个女生选男生的一个相亲模型，对不对？首要条件不知道大家大家都是有经验的人啊，首要条件是什么啊，有钱是不是啊，那看来大家这个标准跟这里边给出来的标准不一样啊，大家觉得有钱不管多大都可以是不是啊，那大家看这个这个女生的标准，这个要求还是比较高的啊，首先看年龄啊，年龄如果要是大于30，诶，直接分类已经搞定了，直接不见啊，30免谈啊，所以像像我这种年纪的。
02:00
直接就pass掉了对吧？呃，大家还是有戏的啊，那如果要是年纪比较小的话，大家看到是不是就可以继续看下一个条件去做判断啊，哎，下一个条件可能判断的是这个长相怎么样对不对，哎，长相看。长相的话，如果丑的话，那不好意思，那那就不见了，如果是帅或者中等，那都还可以考虑，那就继续进入下一个分支对不对，下一个分支诶关键的来了，是不是要看收入啊，哎，就是有钱没钱，那大家看，如果低的话，不好意思，不见那如果要是高或者中等的话再分，如果是收入高，哎，长得又帅，收入又高，年龄又合适，哎，那那没没什么好说的对不对，直接去见吧，如果是中等的话，诶再考量一下，看看这个工作到底是干什么的呀，哎，如果是公务员的话，就去见，不是公务员要要大家码农，那那可能就只有去提升收入了，对不对，呃，码农可能就不见了，对吧？啊所以大家看到这其实就是一个典型的决策数，大家在日常生活当中，其实是经常遇到这样的状况的，而刚才在这个过程当中，大家其实可以发现一个问题啊，就是我们这里每一次去做筛选。
03:16
选去进行下面这个分支的时候，这个条件你选哪个做条件其实是不是有讲究的呀，像这里的这个模型，它第一条件是年龄，先按年龄来筛，那对于大家而言可能条件就不一样，对吧，我第一上来先看有钱没钱，那所以如果是我们对这个特征选取的不一样，这个X判断的不一样的话，是不是得到的就应该是不同的决策树模型啊，啊，所以这其实这就是决策数我们要做的一个事情，最后我们得到的这个模型应该是想要得到什么东西呢？是不是就是按照不同的特征，不同的X去做条件筛选的这样一个一个顺序的一个列表啊，就是要把这棵树得到对不对，所以你选择哪个特征，这个先后顺序其实是很重要的。
04:14
啊，这是我们先给大家做一个影子啊，那当然了，右边这个大家其实一看这是干什么啊哦，这其实是做一个干什么，我们是不是看最后的跟叶子节点啊，叶子节点是不是就是分类最后的那个结论，大家看到这可能是松鼠，可能是老鼠，可能是犀牛，可能是河马，这是对东动物做分类对不对，这个分类就不是二分了，不是见或者不见的二分是不是这个分类有可能很多很多啊，但是它一样是一个离散的取值，还是分类问题对不对啊，所以大家看到决策数其实就是做这样的一个分类问题的。好，那接下来再给大家一个更具体的一个例子啊，比方说这里一个决策数事例，我们首先机器学习是不是首先要有数据啊，输入一堆海量数据，大家看一下这个海量数据是什么啊？
05:07
是哦，就是当前的各种这个天气或者环境的这种参数，然后还有一个是小明是否打球对不对，大家就会想到了我们基本的一个想法，是不是前三个当成X，最后一个当成怪，他是不是可以根据这个数据去预测小明是否出去打球啊，哎，在什么样的条件下会出去打球，哎，那大家就会看到X有哪几个维度呢？天气湿度，风极，哎大家直观的想象一下，你觉得小明什么时候打球，什么时候不打球啊，啊大家看这里边其实已经这个红色就是不打球对不对啊，这个绿色就是打球是和否都已经分开了，什么时候打球啊，大家觉得啊，晴天打球，哎，晴天不一定打球，对吧，阴天打球下雨还打球呢，对吧，是不是都有啊？诶，大家就会看到这个东西，好像直接这么去看，我们就看不出来对吧。
06:08
所以那是不是还得画一画啊，好，我们来看一下吧，第一个大家会想到是不是我就按天气去分，是不是就可以啊，直接一分，大家其实已经可以看到一点结果了，一天有一个结论对不对？大家会看到晴天和雨天，这个没准啊，晴天有时候打，有时候不打，雨天也是有时候打有时候不打，但是是不是小明只要是阴天全去打球啊，你看，所以小明是这个癖好啊，但是这个其实也比较好好理解对吧？阴天就是又不特别晒，然后又不下雨，是不是很适合打球啊，哎，就比较舒服，所以还比较符合直觉好。那么接下来我们再看一下，得到一个结论，小明阴天一定打球，这就完了吗？诶，这没完，对吧，你根据这么一个结论是不是没办法做预测啊，我们是不是接下来要做预测，是给出天气，还有这个风，风是否强，还有这个湿度，最后是不是要预测小明是否打球啊？
07:08
那你如果要给过来的数据是一个阴天的话，那你好分直接就打球去了，那如果要是一个晴天或者雨天呢，那怎么分，是不是这两个还得继续往下去划分啊，对，这个树结构没完，那同样大家会想到晴天根据什么特征去划分，对，大家看到其实在这里看的话，如果根据风的强弱去划分的话，也没准儿对吧，但是如果根据湿度第二个维度去划分，是不是直接就全分开了，所以大家看到最后小明的一个结论，那同样这个雨天的时候也是这个是根据风力强弱是不是就分开了，大家会看到小明最后的结论，我们是不是就可以有这个模型的结论出来了，他是什么样的一个结论呢？是不是？如果是晴天阴天的话，肯定打球对吧，晴天湿度正常的时候一定打球，风力是不是没影响啊，只要是晴天正常都去打球，然后如果是下雨天的话。
08:12
他怎么打球呢？是风力比较弱的时候他去打球对吧？呃，跟这里边的这个，呃，湿度高低就没影响对不对？呃，所以大家看小明是这样的一个喜好，那当然大家可以看到就是小明其实也并不反常，并不太变态啊，为什么呢？因为呃，既然是晴天，然后如果要是这个湿度还高的话，大家会想到这是不是那种桑拿天啊，又热又闷对不对，那肯定打球你出不了汗，很难受嘛，所以他是想要湿度正常的时候，晴天他就去打了，然后雨天呢，大家会想到雨天，对，如果要有风的话，是不是非常难受啊，没有风的时候，哎，那这个就相当于是斜风细雨不须归对不对？小明还蛮有情趣的，所以是这样的一个决策，所以大家看到决策树，其实我们就是按照不同的条件，一层一层给它去做条件判断对不对，诶最后把它划分到不能再划分。
09:13
那就得到了结论，最后我们把所有的条件综合起来，是不是就是我们的决策书模型啊，啊，这其实就是决策书模型啊，所以大家会看到这里提一句啊，就是决策数和if than规则，决策数是不是相当于就是一组if怎么怎么样，然后else怎么怎么样对不对，然后then，诶，怎么怎么样，其实就是这样的一组规则，所以我们想要去选取的是什么呢？啊，其实就是想要去选取这样的一组规则，构建我们的这个模型去做预测，那大家会看啊，这里边还还有一个特点啊，大家注意我们这里边从根节点到叶子节点，是不是每一条路径都对应一条规则啊，哎，走到头最后是不是就有一个叶子是一个结论啊，哎，这就是我们的一条规则，那大家注意它的这个集合有什么特特点呢？
10:07
互斥并且完备啊，这个说的很竖学范啊，什么叫互斥并且完备？也就是说互斥指的是互相之间彼此排斥，呃，这两条规则之间彼此排斥是什么意思？就是说你要不走我这条路，要不走我这条路对不对？不可能既走这边又走这边对吧？也就是说来了一组数据之后，它一定会对应我们的一套规则，走到最后的一个分类里边去啊，所以这是互斥的要求。那还有完备，完备是什么意思呢？哎，就是你所有的点来了之后，我都能有一条规则把它对应，对应出来对不对，把它预测出来，不能说来了一个点我无法预测，这样不行啊，所以这就是我们这个决策数的一个要求，那这里就提提出一个概念啊，就是这个if condition，然后than，那这里的condition是什么呀？对，就是我们所说的条件，那对于这个机器学习问题。
11:07
而言，是不是就是你选择哪个特征来做分类啊，是不是这样啊，哎，就是你选择年龄做分类，还是说选择收入做分类，这就是我们特征选择的一个过程啊，当然了，接下来给大家说这个目标，目标是不是就是总结这一套规则啊，IF3大，大家会想到实际问题当中，像刚才小明打球这个，当然我们的数据很好，大家会看到很简单就把它分清楚了，那实际问题当中是不是这个数据没那么好啊，而且甚至有些数据是不是彼此本身就有矛盾。对吧，是不是有可能小明在这个情况下去打球了，在同样收集到这三个数据的时候，那他就没去打球，因为大家会想到小明有可能今天感冒了，今天不舒服对不对，所以大家会想到，因为我们收集的数据有限，是不是分出来的结果有可能会出现这种矛盾啊。
12:03
那我们怎么样去做呢？我们最后的目标是什么呢？是不是就不能够要求最后一定是分到完全没毛病，而且完全分类的清清楚楚的这样的一个结果啊，对，我们最后是不是要找的是一个跟训练数据矛盾较小的决策数啊，这是不是又来了我们的评价标准对不对？我们这个矛盾较小，这是不是就是损失函数要取最小值那个过程啊？哎，所以接下来大家会想到我们接下来它的求解，它的损失函数，其实就是要找这个矛盾较小的这个过程，当然从另外一个角度，可以把这个看成一个条件概率模型，为什么呢？就是每一次划分的时候，我们都把它划分到更有可能的那一类那一类里边去。什么意思呢？就是每一次划分我都是你，你不一定准，对吧？因为数据里边有矛盾啊，但是它更有可能属于哪一类呢？我就把它分到这一类对不对，哎，这也是一个标准条件概率的。
13:07
角度好，那所以大家会想到，那这个过程当中我怎么去解呢？有些同学可能想到很简单啊，你这不就是矛盾，跟训练数据矛盾较小，选出来就完事了，那我就把所有的可以选择的那些那些路全列出来，全列出来之后，我们不是有训练数据，它本身就有对应的那个结果吗？我就看它你划分到你正确错误对不对，我不是有那个标准吗？就什么准确率，精确率啊，当然这里边可能召回率啊，也可以用，也可以不用，对不对，用那个评价去评价一下，找到最好的一个模型不就完事吗？但是有一个问题，什么问题呢？啊，当然大家一方面可能想到，诶是不是这这会有这个，呃，就是过拟核，或者说这个欠拟核的问题啊，当然那是跟数据相关的问题，另外还有一个它最重要的问题是。
14:04
实际的状况里面，不像刚才小明打球那么好预测。往往它的特征很多很多，我们实际问题当中，你要想大家会想到，如果说刚才这个有有三个条件的时候啊，我们这里是运气比较好，刚好是两次划分就全划分完了，你如果要想把每一个每一种划分的这种情况全列出来的话，那应该就得有多少种选择的情况啊，是不是第一步应该有三种选择情况对不对，选了第一次之后，第二次是不是又有分别有两种选择情况啊，最后是固定的，这是不是A33的一个排列组合啊，那这只是三种情况。如果说是30种的，300种呢，对吧，如果要是有300个特征维度，大家会想到这个便利，这个，这就是一个很大很大的数字数字了，对吧，你要去挨个去遍历，然后挨个去算它跟这个训练集到底匹配成什么样，这这个太复杂了，显然是我们不可接受的，所以这里边提出一个概念，就是说它是一个NP完全问题，所以我们往往是用一个启发式的算法，大家会想到就类似于梯度下降一样，对不对，就是一次一次的去去近似的去求解就可以了，那找到的应该是一个次最优次最优解对不对？不要去要求，一定要找到全局最小，就所有里边便利了最小的那个，这个可能做不到，所以我们的算法往往就是这样的一个递归的过程，怎么样递归呢？
15:39
选择当前应该选的最优的那个特征，然后对数据集进行分割，对不对，就分成了两类，对吧？然后那么大家会想到，那么我们标准是什么呢？我们的要求是能够让分成的那两类分的最好，那什么叫分的最好呢？大家会看到这样的一个划分，是不是就分的很好啊，是不是分的就非常的清晰，非常的明确啊，如果这一步我们不选湿度，选成这个风力的话。
16:13
是不是分开之后它就不够纯粹啊，是不是就是乱七八糟的这种情况，那是不是在这一步选择，显然是选湿度这个分类就分的更好，我们每一步都选一个当前这样的一个特征，就是能够分的最好的这个特征，那这就是我们的这个过程，然后接下来分完了之后，是不是下一步又选剩下的特征里边能分的最好的一个特征啊，一步一步迭代下去，得到的就是一个次最优解。好，那这里最大的问题就是什么呢？就是你怎么去选择最优特征，能让它有一个最好的分类，对吧，你怎么去评价这个分类它最好呢？那这个问题就比较复杂了，那这里边就给大家，呃呃，这里边还有一个例子啊，大家看特征选择，就是用哪个特征来划分特征空间，大家看这个例子，这是一个大家看最后类别是是或者否，这是干什么呀？大看年龄，有工作，是否有工作，是否有自己的房子，然后信贷情况，最后是或者否。
17:17
还款能力哦，这是对，这是银行评价你的这个信贷状况和还款能力，最后决定是否给你发放贷款，对吧，这银行要用到的一个决策数，大家直观来看的话，你你觉得第一次第一个选择的特征哪个最好？大家看我可以第一个选年龄对不对，划分成青年、中年、老年，也可以按照有工作没有划分成两类，选哪个更好呢？工，大家觉得选选工作更好是吗？大家可能觉得这个有工作是否有作跟他是否发放贷款相关程度更高，是不是，是否有房子，大家觉得可能更好是吧？所以直观这么看，直接这么看是不是看不出来啊，所以，所以我们是不是肯定得有一种真正的算法来决定我们怎么评价哪个特征更好，对吧，能把它划分成更好的类啊，那接下来这个就是这部分相对有点难啊，我们就简单给大家过一过，说一说就可以了。我们先回忆一下随机变量，什么叫随机变量来着啊，就是其实就是一个随机事件，我们把它对应到一个数字，对应到一个变量的值，这是不是就是一个随机变量啊？比方说我们这个实验结果抛硬币，硬币的正面。
18:36
反面，那是不是，这这是一个文字描述，我们在数学上，数学家是不是嫌这个太烦了，就会拿一个零一来做一个做一个表述，对不对？或者这里你要抛两次硬币的话，H一般是had，就表示正面，T是ta，表示背面，对不对，反面，所以那两次的话，那是不是一正一反是一种情况，是一两正是二两反是零，这是不是也是一个随机变量啊？哎，这就是随机变量的定义，那这里边有一个概念啊，商的概念，大家会想到随机变量有一个什么样的问题呢？大家想一下，一个随机变量它的取值它有多随机，这个东西能不能考量？
19:20
大家会想到是不是可以考量这个东西啊，一个东西它有多随机商，就是考量这个东西的，它就是考量随机变量的不确定性，如果不确定性越大，熵也就越大。好，先把概念给出来啊，大家看啊，就是给给出定义，定义怎么算呢？HX，这就是X这个随机变量的商，它怎么算？X不是有很多个很很多个取值吗？可以取很多个取值，每一个取值是不是对应有一个概率啊，有一个P对不对，PI，那就是取某一个Xi的时候，它的概率，它的算法是什么呢？把每一个可能取值的概率做一个计算，每一个取值的概率乘以log PI，每一个都这么计算一下，然后是不是所有的再求个和啊，最后前面再加个负号，那当然了，这个就是对数，是不是可以以二为底或者以一为底啊，单位是。
20:21
商的单位叫比特或者纳特啊，这个比特跟我们的位的单位是一样，对不对啊，所以那么这个到底代表一个什么东西，看起来怪怪的对吧？啊，大家看一个具体的例子啊，只取两个值的时候，那是不是这就是一个零一的一个一个随机变量啊，这就有点像我们抛一个硬币对不对？零一的时候，那么大家会想到是不是取零的时候可能有一个概率，取一的时候有一个概率啊，假如说取一的概率是P，取零的概率是，那就那就是一减P对不对啊，两个加起来是一，那么它的商是不是这样的一个函数啊？大家看各种两个相加，前面都有符号，是不是就是减号连起来啊，所以大家看前面这个是不是取一的时候是P乘以log p对不对，后边是不是一减P，这是概率乘以LOG1减P啊，哎，就是把它每一个概率这样加起来就可以，这个图像画出来是一个什么样的状态呢？是下面这个状态。
21:25
大家可以看一下啊，当P取零的时候，是不是前面这一项就是零了，后边这一项前面这是一，后边这里是LOG1 log1是不是也是零啊，所以是不是整个就是零啊，哎，然后取一的时候，P取一的时候，那大家会想到是不是反过来了啊对吧？后面这个一减P就是一零对不对？那后面这一项是零，那这里落个P落个一也是零对不对？所以整个还是零，所以零和一的时候都是零，那什么时候取得最大值呢？对，在0.5的时候取得最大值，它是这样的一个上凸的一个函数，对吧？啊，这是一个凹函数啊，严格意义上说是这代表一个什么意思啊。
22:10
大家想象一下，P取零的时候代表什么？P取零的时候，代表X等于一的时候概率为零，那是不是X只能取零啊？也就是取零的时候概率是一对不对，大家想这还是个随机事件吗？这是不是一个必然事件啊，对不对啊对，所以大家会想到你如果是必然事件的话，它的随机程度大吗。必然事件，随机程度是不是应该是零啊，对吧，不确定性是不是零啊，所以它的商算出来就是零，对，同样P取一的时候是不是一样啊啊反过来也是一个必然事件，所以零和一的时候都是零。那取0.5的时候，大家会想到这是不是就是我们扔硬币的时候啊，扔硬币的时候，你假如取零和取一，每一次它的概率都一样，都是0.5，那是不是你预测下一次就完全没法预测了，这是不是代表下一次的随机性就特别的大？
23:15
对吧，完全没法预测，是不是代表不确定性很大，所以积极性很大，所以它的商就特别大，那得到的这个值是一，好，那么这是商的这个例子啊，这里还给大家举一个例子，大家可以看一眼，我们现在呢，要结合到这个分类问题里边，结合到决策数里边，那怎么样去做分，怎么样去结合呢？给大家一个例子，三个球分类非常简单，对吧，一个红球，两个黑球，但一眼是不是看出来就是红球应该一组，黑球一组啊，那从这个商的观点来看，怎么看呢？我们可以算一下它初始的商，这个怎么算，就是我们从这里边去想要去取一个球的话，这是不是一个随机事件啊，它取得红球的概率是不是1/3，取得黑球的概率是不是2/3，按照公式代进去，诶，得出0.918，本身这个伤是不是还挺大的呀，所以本身这个随机程度还挺大的。
24:15
对吧，不确定性挺大的，然后接下来大家看一眼啊，我们有一种方法分类怎么分呢？诶把一个黑球一组，然后剩下的一个红球，一个黑球另外一组，哎，直观看的话，这个分类分的好不好啊，这个分类是不是分的不太好啊对，大家会想到其实你是不是红球单独分出来，这个就完全已经纯了嘛，对吧，这这分类是最好的，那大家会看到这样的分类，它会出现一个什么状况呢？那就是这边这个黑球是不是分纯了，这个这是个必然事件对不对，另外这里，诶，这个是不是反而它就随机程度更大了呀？好，我们接下来来算一下整体分类之后的随机程度，或者说商是不是应该是两部分合在一起啊，那前面这一部分这两个球的商怎么算呢？从里边取一个小球是不是都是1/2的概率啊，前面1/2，后面1/2，之前我们算过，这是不是应该是一啊。
25:18
后边只有一个小球，这一部分是不是一个必然事件，这一部分算出来是不是应该上是零，全部加起来最后是不是还是一。大家会看分类之后商是不是反而增大了呀，0.918上升到一了，是不是表示它的随机程度越来越大了，不确定性越来越大了，那你分类分的是好还是不好啊对，所以分类是不是分的不好啊，那大家同样可以看到，那我们看一下我们想象的这种分类方式是什么呀？这分完之后是不是就全部纯了呀，那两个子集里边是不是都是确定事件了啊，那是不是两边都是零啊。
26:00
所以这种情况是不是分类分的很好，这就是我们商在分类问题里边的一个应用，那大家就可以想象得到，我们在决策数这里边是不是就应该是让它由不确定到确定啊，分类就会越来越好，对不对？那这个过程是不是就应该是商逐渐怎么样的一个过程，大家想象一下确定性不确定性越来越小，是不是就应该商越来越小的一个过程啊，诶，所以我们的目标其实就是要让商越来越小，那这里就又提出一个概念啊，叫条件上，条件上是什么呢？就是我们不是每一次都要去分类吗？条件上指的是我们在一个X的条件下，那另外一个Y它的不确定性啊，这里看大家看这个公式，大家看一眼就知道啊，就是这个有点像一个数学期望的那个表达对不对。
27:01
对，里边是它的一个条件概率，然后本身它的那个商，然后再乘以这个概率，最后再求个和对吧？啊，那大家会想到它代表什么呢。商HD本身就表示原始数据集的分类的不确定性，对不对？那如果说条件商HDA，它表示什么呢？是在的条件下数据集的不确定性，大家会想到我们是不是就想要这个条件上，如果要是变得最小的话，是不是就符合我们这个分类的时候找到了一个最好的特征去分啊。哎，所以这其实就是这样的一个过程，那当然我们在这个，呃，就是由数据估计得到的时候，这个商和条件商分别被叫为经验商和经验条件商啊，又有一堆概念啊，然后又来一个概念叫信息增益，信息增益是什么呢？大家会想到是不是就是你做了分类和没有做分类选择了一个条件，做了分类和没有分类之前，是不是这个商有一个差值啊，你分类之后正常来讲是不是这个商应该减小，所以熵减小了，是不是相当于信息就变多了呀？啊所以我们把这个叫做信息增益，就是它的商的一个改变，它是经验商和条件商的一个差值，好，那所以我们的决策数它的。
28:29
评估模型的方法，或者说它的特征选择的标准是什么呢？就是用信息增益，看它哪个信息增益最大，来选择对应的那个特征啊，大家想这就不是求最小值了，对不对，我们这里是不是要求这个最大值了，反而是啊，对，所以这里边是要求这样一个东西，所以大家看这里不是说单独的求当前的这个商，只要最小，呃最最呃最小就可以，而是要求它的改变最大，对不对啊，是要求这个好好，那么接下来大家会想到就是说这个信息增益就依赖于特征了，你选不同的特征是不是会有不同的信息增益啊，我们要选的就是信息增益最大的那个。
29:16
好了，呃，那角色数这一块基本上就讲完了，最后我们来给大家简单的说一说角色数里边的一些经典的算法，有哪些算法呢？呃，其实就是比方说一个ID3 id3这样的一个算法，它其实就是找信息增益最大的那个特征，然后根据它来做分类啊，这就是经典的一个算法啊，然后还有一个算法，大家可能也听说过，叫C4.5 C4.5它是在ID3上做了一个改进，它不用信息增益了，它用信息增益比啊，大家会想到就这个就是相当于是不是还要除一个原来的那个增益啊，对吧？用比值这个有一个什么好处呢？啊，就是我按比值来考虑的话，就可以排除你绝对值上那种，呃，就在什么情况，那个绝对值会有影响，就是直接用这个信息增益去去做筛选的时候，如果说你一个分类，这个分类的特征，它本身能分的类别比较多的话，就比方说像前面大家想那个年龄如果能分三类，然后你是否有工作只能分两类的话，是不是分三类的，这个他的信息增益应该会大一点啊，诶这是一个就是信息增益它绝对值的一个问题，所以为了解决这个问题，可以引入这个信息增益比的，这个大家有一个了解就可以啊。啊另外还有一个很有名的算法叫cut part叫什么呢？分类与回归数啊，那就是C就是C就是classification，对吧，分类，然后a and regression tree分类与回归数，那么它这个就相对更加完整一些。它做什么呢？首先特征选择，然后生成一个数。
30:55
另外他还要做什么呀，还要做减脂，这个大家听说过吗？这为什么要做减脂啊？
31:03
这就是我们要对过拟合的问题做一个考量了，因为你如果不停的去学，不停的去学，一直往下去做这个信息增具的筛选的话，很有可能出来的那个东西就特别的细，对不对，划分的特别的细，那这种情况往往测试集上效果就不好，所以针对这样的特点，我们是不是有些时候差不多就行了，对不对，不要整那么复杂，好分到这一类行了，减掉，哎，这个就是做了这样的一个减脂的过程啊啊，所以这个car数呢，可以用于分类，也可以用于回归，这就是决策数的这一部分内容。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之机器学习和推荐系统

（55/66）

7分15秒

000_尚硅谷_机器学习和推荐系统_课程简介

600

30分47秒

II_电影推荐项目/037_尚硅谷_电影推荐系统_项目系统设计（上）

520

13分56秒

II_电影推荐项目/038_尚硅谷_电影推荐系统_项目系统设计（中）

510

32分14秒

II_电影推荐项目/039_尚硅谷_电影推荐系统_项目系统设计（下）

410

24分14秒

II_电影推荐项目/040_尚硅谷_电影推荐系统_项目框架搭建

390

16分27秒

II_电影推荐项目/041_尚硅谷_电影推荐系统_数据加载模块（一）

410

21分44秒

II_电影推荐项目/042_尚硅谷_电影推荐系统_数据加载模块（二）

440

17分11秒

II_电影推荐项目/043_尚硅谷_电影推荐系统_数据加载模块（三）

390

19分19秒

II_电影推荐项目/044_尚硅谷_电影推荐系统_数据加载模块（四）

510

23分47秒

II_电影推荐项目/045_尚硅谷_电影推荐系统_数据加载模块（五）

500

30分15秒

II_电影推荐项目/046_尚硅谷_电影推荐系统_统计推荐模块（上）

450

24分11秒

II_电影推荐项目/047_尚硅谷_电影推荐系统_统计推荐模块（中）

400

26分26秒

II_电影推荐项目/048_尚硅谷_电影推荐系统_统计推荐模块（下）

450

34分28秒

II_电影推荐项目/049_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（上）

320

17分12秒

II_电影推荐项目/050_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（中）

420

29分12秒

II_电影推荐项目/051_尚硅谷_电影推荐系统_基于LFM的离线推荐模块（下）

390

25分7秒

II_电影推荐项目/052_尚硅谷_电影推荐系统_ALS模型评估和参数选取（上）

370

17分4秒

II_电影推荐项目/053_尚硅谷_电影推荐系统_ALS模型评估和参数选取（下）

390

33分18秒

II_电影推荐项目/054_尚硅谷_电影推荐系统_实时推荐模块（一）

490

32分6秒

II_电影推荐项目/055_尚硅谷_电影推荐系统_实时推荐模块（二）

380

26分11秒

II_电影推荐项目/056_尚硅谷_电影推荐系统_实时推荐模块（三）

390

31分31秒

II_电影推荐项目/057_尚硅谷_电影推荐系统_实时推荐模块（四）

420

23分18秒

II_电影推荐项目/058_尚硅谷_电影推荐系统_实时推荐模块（五）

340

13分30秒

II_电影推荐项目/059_尚硅谷_电影推荐系统_实时推荐模块测试

380

22分16秒

II_电影推荐项目/060_尚硅谷_电影推荐系统_基于内容推荐模块（一）

410

23分45秒

II_电影推荐项目/061_尚硅谷_电影推荐系统_基于内容推荐模块（二）

390

15分41秒

II_电影推荐项目/062_尚硅谷_电影推荐系统_基于内容推荐模块（三）

400

19分17秒

II_电影推荐项目/063_尚硅谷_电影推荐系统_基于内容推荐模块（四）

320

26分53秒

II_电影推荐项目/064_尚硅谷_电影推荐系统_实时系统联调测试（上）

400

24分53秒

II_电影推荐项目/065_尚硅谷_电影推荐系统_实时系统联调测试（下）

410

38分3秒

I_理论/001_尚硅谷_推荐系统简介_概述

420

31分3秒

I_理论/002_尚硅谷_推荐系统简介_推荐系统算法简介

470

29分28秒

I_理论/003_尚硅谷_推荐系统简介_推荐系统评测

410

35分4秒

I_理论/004_尚硅谷_机器学习入门_数学基础（上）

390

36分23秒

I_理论/005_尚硅谷_机器学习入门_数学基础（下）

390

23分11秒

I_理论/006_尚硅谷_机器学习入门_机器学习概述

350

26分18秒

I_理论/007_尚硅谷_机器学习入门_监督学习（上）

400

32分45秒

I_理论/008_尚硅谷_机器学习入门_监督学习（中）

420

29分40秒

I_理论/009_尚硅谷_机器学习入门_监督学习（下）

400

32分51秒

I_理论/010_尚硅谷_机器学习模型和算法_python简介

430

31分38秒

I_理论/011_尚硅谷_机器学习模型和算法_python基础语法（上）

370

22分48秒

I_理论/012_尚硅谷_机器学习模型和算法_python基础语法（下）

370

27分48秒

I_理论/013_尚硅谷_机器学习模型和算法_线性回归（上）

460

24分35秒

I_理论/014_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（上）

380

15分21秒

I_理论/015_尚硅谷_机器学习模型和算法_线性回归最小二乘代码实现（下）

320

23分25秒

I_理论/016_尚硅谷_机器学习模型和算法_线性回归（下）

450

25分38秒

I_理论/017_尚硅谷_机器学习模型和算法_线性回归梯度下降代码实现

450

8分14秒

I_理论/018_尚硅谷_机器学习模型和算法_线性回归调用sklearn库代码实现

410

15分10秒

I_理论/019_尚硅谷_机器学习模型和算法_K近邻

370

31分11秒

I_理论/020_尚硅谷_机器学习模型和算法_K近邻代码实现（上）

410

29分17秒

I_理论/021_尚硅谷_机器学习模型和算法_K近邻代码实现（中）

360

33分34秒

I_理论/022_尚硅谷_机器学习模型和算法_K近邻代码实现（下）

340

22分40秒

I_理论/023_尚硅谷_机器学习模型和算法_逻辑回归（上）

360

20分31秒

I_理论/024_尚硅谷_机器学习模型和算法_逻辑回归（下）

310

31分39秒

I_理论/025_尚硅谷_机器学习模型和算法_决策树

440

10分7秒

I_理论/026_尚硅谷_机器学习模型和算法_K均值聚类

370

38分23秒

I_理论/027_尚硅谷_机器学习模型和算法_K均值聚类代码实现（上）

340

19分12秒

I_理论/028_尚硅谷_机器学习模型和算法_K均值聚类代码实现（下）

410

27分27秒

I_理论/029_尚硅谷_推荐系统_推荐系统算法详解（一）

420

28分53秒

I_理论/030_尚硅谷_推荐系统_推荐系统算法详解（二）

380

20分51秒

I_理论/031_尚硅谷_推荐系统_推荐系统算法详解（三）

440

31分7秒

I_理论/032_尚硅谷_推荐系统_TF-IDF算法代码示例

350

25分38秒

I_理论/033_尚硅谷_推荐系统_推荐系统算法详解（四）

380

27分30秒

I_理论/034_尚硅谷_推荐系统_推荐系统算法详解（五）

390

29分46秒

I_理论/035_尚硅谷_推荐系统_LFM梯度下降算法代码实现（上）

390

15分38秒

I_理论/036_尚硅谷_推荐系统_LFM梯度下降算法代码实现（下）

400

I_理论/025_尚硅谷_机器学习模型和算法_决策树

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐