首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一文详解分类问题中的维度灾难及解决办法

一、介绍 本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。 考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做到这一点,我们首先需要考虑猫、狗的量化特征,这样分类器算法才能利用这些特征对图片进行分类。例如我们可以通过毛皮颜色特征对猫狗进行识别,即通过图片的红色程度、绿色程度、蓝色程度不同,设计一个简单的线性分类器:

04

决策树和机器学习算法的贝叶斯解释

我记得我在选修一门课程时,教授花了两节课反复研究决策树的数学原理,然后才宣布:“同学们,决策树算法不使用任何这些。”很显然,这些课程并不是关于基尼系数或熵增益的。教授在讲课时几分钟就避开了他们。这两节课是180分钟的贝叶斯定理和贝塔分布的交锋。那么,为什么我们被鼓励去研究所有这些数学呢?好吧,增长决策树的常用方法是该贝叶斯模型的近似值。但这不是。该模型还包含一个初级集成方法的思想。这样一来,让我们投入一些数学知识,并探讨贝叶斯定理的优越性。(注意:我假设您知道概率概念,例如随机变量,贝叶斯定理和条件概率)

03

机器学习入门 12-3 使用信息熵寻找最优划分

在上一小节中介绍了一个新指标:信息熵。通过信息熵可以计算当前数据的不确定度。构建决策树时,初始状态下,根节点拥有全部的数据集。在根节点的基础上,根据划分后左右两个节点中的数据计算得到的信息熵最低为指标,找到一个合适的维度以及在这个维度上的一个阈值,然后根据找到的维度以及对应的阈值将在根节点中的全部数据集划分成两个部分,两个部分的数据分别对应两个不同的节点。对于两个新节点,再以同样的方式分别对两个新节点进行同样的划分,这个过程递归下去就形成了决策树。本小节主要通过代码来模拟使用信息熵作为指标的划分方式。

02
领券