展开

关键词

分类还是回归

热烈庆祝2020年的第一个周末即将完结撒花,今天我们聊分类回归。 最近聊到有监督学习,有监督学习用得最多,概念不少,含义还容易混,今天就看到有同学提问: 房价走势预测属于分类问题,还是回归问题? 机器学习都是问题导向的,在有监督学习门下,最热的问题就是这两个,分类问题和回归问题。这两个问题关系很暧昧,既有区别又有联系,联系还异常紧密,不过今天只说区别。 怎么区别一个问题到底是分类问题还是回归问题呢?方法很简单,看待预测的值的类型——如果是离散的属于分类问题,如果是连续的则属于回归问题。 如果要给出的是房价将是升或者是跌,这是离散类型,属于分类问题,而如果要给出一个具体的值,则是回归问题。 下回再聊。

4710

分类回归树算法---CART

一、算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法也属于一种决策树,和之前介绍了C4.5算法相类似的决策树。 算法在构建分类树和回归树时有些共同点和不同点,例如处理在何处分裂的问题。 剪枝的方法分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些节点可以剪掉,于是干脆不对这些节点进行分裂,在分类回归树中使用的是后剪枝方法,后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等 对于分类回归树中的每一个非叶子节点计算它的表面误差率增益值α,可以理解为误差代价,最后选出误差代价最小的一个节点进行剪枝。。 ? ? 分类回归树算法---CART

1.7K80
  • 广告
    关闭

    腾讯云618采购季来袭!

    腾讯云618采购季:2核2G云服务器爆品秒杀低至18元!云产品首单0.8折起,企业用户购买域名1元起,还可一键领取6188元代金券,购后抽奖,iPhone、iPad等你拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    CART 分类回归

    本文结构: CART算法有两步 回归树的生成 分类树的生成 剪枝 ---- CART - Classification and Regression Trees 分类回归树,是二叉树,可以用于分类,也可以用于回归问题 分类树的输出是样本的类别, 回归树的输出是一个实数。 ---- CART算法有两步: 决策树生成和剪枝。 不同的算法使用不同的指标来定义"最好": 分类问题,可以选择GINI,双化或有序双化; 回归问题,可以使用最小二乘偏差(LSD)或最小绝对偏差(LAD)。 这里用代价复杂度剪枝 Cost-Complexity Pruning(CCP) ---- 回归树的生成 回归树模型表示为: ? ---- 分类树的生成 (1)对每个特征 A,对它的所有可能取值 a,将数据集分为 A=a,和 A!=a 两个子集,计算集合 D 的基尼指数: ?

    66630

    分类回归树算法---CART

    一、算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法也属于一种决策树,和之前介绍了C4.5算法相类似的决策树。 算法在构建分类树和回归树时有些共同点和不同点,例如处理在何处分裂的问题。 因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现完好,误差率极低且能够正确得对训练样本集中的样本进行分类。 剪枝的方法分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些节点可以剪掉,于是干脆不对这些节点进行分裂,在分类回归树中使用的是后剪枝方法,后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等 对于分类回归树中的每一个非叶子节点计算它的表面误差率增益值α,可以理解为误差代价,最后选出误差代价最小的一个节点进行剪枝。。 ?

    83490

    【技术分享】逻辑回归分类

    最简单的回归是线性回归,但是线性回归的鲁棒性很差。   逻辑回归是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。 2.多元逻辑回归   二元逻辑回归可以一般化为多元逻辑回归用来训练和预测多分类问题。对于多分类问题,算法将会训练出一个多元逻辑回归模型, 它包含K-1个二元回归模型。 14.png 3.逻辑回归的优缺点 优点:计算代价低,速度快,容易理解和实现。 缺点:容易欠拟合,分类回归的精度不高。 4. 实例   下面的例子展示了如何使用逻辑回归。 计算分为两种情况,即二元逻辑回归的情况和多元逻辑回归的情况。虽然多元逻辑回归也可以实现二元分类,但是为了效率,compute方法仍然实现了一个二元逻辑回归的版本。 predictPoint用来预测分类信息。它针对二分类和多分类,分别进行处理。

    57210

    R分类算法-Logistic回归算法

    逻辑回归 Logistic Regression 所谓LR,就是一个被Logistic方程归一化后的线性回归,可以将非线性的问题转化为线性问题。

    377100

    Logistic回归算法实现分类案例

    模型构建 接下来使用Logistic回归与随机梯度参数估计两种方法对上述处理后的训练数据进行学习,并且根据测试样本特征进行预测。 from sklearn.metrics import classification_report #使用Logistic回归模型自带的评分函数score获得模型在测试集上的准确性结果。

    28830

    本质是分类的“逻辑回归”来了!

    机器学习,绕不开预测问题,预测绕不开回归分类。本篇介绍最常用的二分类算法:逻辑回归(Logistics Regression),当然随着算法的发展,它也可用于多分类问题。 回归分类的过渡 ? 何为“逻辑” ? ? ? 理想的最优模型 01 概率预测 ? 02 损失函数 ? ? ? ? 多分类的扩展应用 ? 下期再见 逻辑回归是线性回归分析的扩展,其通过逻辑函数将回归值映射为概率值,实现了对分类问题的处理。通过本次学习,对于逻辑回归,你是否掌握了呢?有任何疑问或建议,给有范君留言吧。 下一篇作者将介绍逻辑回归的好伙伴支持向量机,并详细介绍它们之间的区别与联系,希望你不要错过了哦!

    20230

    逻辑回归中的多分类问题

    一般情况下解决多分类问题有如下两种方式: 1)OvR (One vs Rest) 每次将某个与剩下的所有的分类,n个类别进行n次分类,选择分类得分最高的。 2). OvO (One vs One) 两两组合,比如四个类别有六个组,选择赢数最高的分类

    25230

    机器学习之分类回归树(CART)

    1.分类回归树简介 分类回归树的英文是Classfication And Regression Tree,缩写为CART。 如果待预测分类是离散型数据,则CART生成分类决策树。 如果待预测分类是连续性数据,则CART生成回归决策树。 2.CART分类树 2.1算法详解 CART分类树预测分类离散型数据,采用基尼指数选择最优特征,同时决定该特征的最优二值切分点。 3.CART回归树 3.1算法详解 CART回归树预测回归连续型数据,假设X与Y分别是输入和输出变量,并且Y是连续变量。 用f6(x)拟合训练数据的平方损失误差如下所示,假设此时已经满足误差要求,那么f(x)=f6(x)便是所求的回归树。 ?

    1.4K20

    GBDT的回归、二分类以及多分类教程

    Decision Tree:CART回归树  首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是都是CART回归树。 为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。   对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。 在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。 ? 2. 总结 本文章从GBDT算法的原理到实例详解进行了详细描述,但是目前只写了回归问题,GitHub上的代码也是实现了回归、二分类、多分类以及树的可视化。

    1.4K10

    【NLP】文本分类任务之逻辑回归

    我们将其看作一个文本分类问题,来介绍一系列的文本分类方案。 方案 在这篇文章中,我将介绍最简单也是最常用的一种文本分类方法——从TFIDF中提取文本的特征,以逻辑回归作为分类器。 ——逻辑回归,训练模型。 这是一个多标签问题,我们将其看作6个二分类问题求解,即我们假设两两标签是没有关系的。 hecongqing/TextClassification 数据集可以在这里下载:https://share.weiyun.com/5c7KYLw 接下来的文章中我将介绍其他的机器学习方法和深度学习来解决有毒评论的文本分类问题

    45310

    用逻辑回归对用户分类 (理论+实战)

    算法建模中最基础的一步就是对用户进行分类。这里就介绍一种常用的分类算法 - 逻辑回归。 模型 用户数据比较复杂,这里用平面上的点举例。假设平面上有一些点,如图所示: ? 借助计算机算法,N维空间分类的问题已经很容易解决,逻辑回归就是常用的一种。 逻辑回归 逻辑回归的核心思想就是通过现有数据,对分类边界线建立回归公式,以此进行分类。 Sigmoid函数的作用是将任意实数转换成0~1的数,而0和1刚好可以用做分类,比如,用1表示三角形,用0表示圆形。小于0.5的可以划分为0类,大于0.5的划分为1类。 若d为正且越大,h越接近于1,也就越应该属于三角形(分类1);若d为负,且绝对值越大,h越接近于0,该点也就越应该属于圆形(分类0)。因此,h越接近于分类标识,划分的准确性越高。 代码 loadData()函数返回坐标值和分类标识。

    57220

    机器学习中分类回归的差异

    分类(Classification)问题与回归(Regression)问题之间,有着一个重要的区别。 从本质来说,分类是对标签(Label)作出的预测,回归则是对于量(Quantity)的预测。 教程概述 本教程共分为 5 个部分,分别是: 函数逼近 分类 回归 分类回归之间的比较 分类回归之间的转换 函数逼近 预测建模问题,是基于历史数据来开发一个模型的问题,这个模型可以对新数据(我们没有相应的答案 此处线性回归是一种回归算法,然而 Logistic 回归则是一种分类算法。 分类回归之间的比较 分类预测建模问题不同于回归预测建模问题。 分类的任务是预测离散的类标签。 重点是,我们评估分类回归预测的方式各不相同,毫无重叠部分: 分类预测可以使用准确率进行评估,而回归预测则不能。 回归预测可以使用均方根误差进行评估,而分类预测则不能。 分类回归之间的转换 在某些情况下,我们可以将回归问题转换为分类问题。比如说,要预测的数量可以转换成离散的桶(Buckets)。

    78690

    利用TensorFlow实现多元线性回归分类

    一般对于多元线性回归模型,可以写成矩阵的形式就是,Y=WX+b,这里W是4x3的,x是150x4的,b是150x3的,所以Y的维度就是(150x4)x(4x3)+(150x3)=150x3(属于某个类别的概率 ),模型最后输出是softmax多分类函数,所以最后每个样本都会有一个属于不同类别的概率值。

    78580

    深入广义线性模型:分类回归

    【导读】本文来自AI科学家Semih Akbayrak的一篇博文,文章主要讨论了广义的线性模型,包括:监督学习中的分类回归两类问题。 虽然关于该类问题的介绍文章已经很多,但是本文详细介绍了几种回归分类方法的推导过程,内容涉及:线性回归、最大似然估计、MAP、泊松回归、Logistic回归、交叉熵损失函数、多项Logistic回归等, Generalized Linear Models 今天的主题是广义线性模型(GeneralizedLinear Models),一组用于监督学习问题(回归分类)的通用机器学习模型。 权重w迭代更新公式 Logistic回归(Logistic Regression) ---- ---- 上面我提出了回归问题的模型,但是广义线性模型也可以用于分类问题。 交叉熵损失函数(Cross-Entropy Loss Function) 上面定义的损失函数被称为交叉熵损失函数,在分类问题中被广泛使用,我们在统计上显示了我们使用它的原因。

    1.1K60

    浅谈机器学习-回归分类的区别

    浅层: 两者的的预测目标变量类型不同,回归问题是连续变量,分类问题离散变量。 中层: 回归问题是定量问题,分类问题是定性问题。 高层: 回归分类的根本区别在于输出空间是否为一个度量空间。 ? 解释 分类回归的区别在于输出变量的类型。 定量输出称为回归,或者说是连续变量预测; 定性输出称为分类,或者说是离散变量预测。 分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。 本质         分类模型和回归模型本质一样,都是要建立映射关系。 在实际操作中,我们确实常常将回归问题和分类问题互相转化,即分类模型可将回归模型的输出离散化,回归模型也可将分类模型的输出连续化。 (分类问题回归化:逻辑回归回归问题分类化:年龄预测问题——>年龄段分类问题)

    9.3K60

    基于逻辑回归的鸢尾花分类

    载入数据集的代码如下: from sklearn.datasets import load_iris X = load_iris().data y = load_iris().target 3.逻辑回归模型

    1.9K10

    TensorFlow2.0实现逻辑回归分类,多分类

    /lilihongjava/leeblog_python/tree/master/tensorflow_logistic_regression 数据集iris.csv,sklearn 鸢尾花数据集 二分类 这里用二元的交叉熵作为二分类的损失函数,激活函数为sigmoid layer0 = tf.keras.layers.Dense(1, input_shape=(x_data.shape[1],), model = tf.keras.Sequential([layer0]) model.compile(loss='binary_crossentropy', optimizer='adam') 多分类 categorical_crossentropy:多类的对数损失,它是一个多分类损失函数,可以配合着softmax一起使用。 arg_check_transformation, multiple_gpu_strategy def model_builder(x_data, class_num): if class_num == 2: # 逻辑回归分类

    1.2K10

    相关产品

    • 智能编辑

      智能编辑

      腾讯云视频AI智能编辑提供无需人工,即可快速生成智能集锦(类型包括王者荣耀、英雄联盟、足球、篮球、花样滑冰等集锦)的服务,并且支持新闻拆条、广告拆条、人脸拆条服务,同时可生成视频的分类标签、视频标签,辅助视频推荐,AI识别片头片尾大大提升了短视频内容制作的便捷性,为短视频生产和智能融媒体编辑记者提升工作效率。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券