本文将从回归和分类的本质、回归和分类的原理、回归和分类的算法三个方面,详细介绍回归和分类 (Regression And Classification)。
回归和分类是机器学习中两种基本的预测方法,它们的本质区别在于输出变量的类型。回归问题输出的是连续的数值,分类问题输出的是有限的、离散的类别标签。两者都是监督学习的一部分,都依赖于带有标签的训练数据来学习模型。
回归的目的是预测数值型的目标值,本质是寻找自变量和因变量之间的关系,以便能够预测新的、未知的数据点的输出值。例如,根据房屋的面积、位置等特征预测其价格(房价预测、股票价价格预测、温度预测等)。
回归的本质
一元回归:只涉及一个自变量和一个因变量的回归分析。
多元回归:涉及两个或更多个自变量和一个因变量的回归分析。
线性回归:自变量与因变量之间的关系被假定为线性的,即因变量是自变量的线性组合。
非线性回归:自变量与因变量之间的关系是非线性的,这通常需要通过非线性模型来描述。
简单回归:只有一个因变量的回归分析,无论自变量的数量如何。
多重回归:涉及多个因变量的回归分析。在这种情况下,模型试图同时预测多个因变量的值。
分类的目的是预测标签型的目标值,本质是根据输入数据的特征将其划分到预定义的类别中。例如,根据图片的内容判断其所属的类别(猫、狗、花等)(邮件是否为垃圾邮件、疾病诊断的患病与否)。
分类的本质
表示分类任务中有两个类别。在二分类中,我们通常使用一些常见的算法来进行分类,如逻辑回归、支持向量机等。例如,我们想要识别一些图片是不是猫,这就是一个二分类问题,因为答案只有是或不是两种可能。
表示分类任务中有多个类别。多分类是假设每个样本都被设置了一个且仅有一个标签:一个水果可以是苹果或者梨,但是同时不可能是两者。在多分类中,我们可以使用一些常见的算法来进行分类,如决策树、随机森林等。例如,对一堆水果图片进行分类,它们可能是橘子、苹果、梨等,这就是一个多分类问题。
给每个样本一系列的目标标签,可以想象成一个数据点的各属性不是相互排斥的。多标签分类的方法分为两种,一种是将问题转化为传统的分类问题,二是调整现有的算法来适应多标签的分类。例如,一个文本可能被同时认为是宗教、政治、金融或者教育相关的话题,这就是一个多标签分类问题,因为一个文本可以同时有多个标签。
线性回归 vs 逻辑回归
通过建立自变量和因变量之间的数字模型来探究它们之间的关系。
线性回归
线性回归(Linear Regression):求解权重(w)和偏置(b)的主要步骤。
求解权重(w)和偏置(b)
和偏置
选择初始值,并准备训练数据
和标签
。
和
,以最小化损失函数,直到满足停止条件。
梯度下降算法迭代更新 w 和 b
和
,并在验证集上检查模型性能。
和
构建线性回归模型,用于新数据预测。
新数据预测
根据事物或概念的共同特征将其划分为同一类别,而将具有不同特征的事物或概念划分为不同类别。
逻辑回归
逻辑回归(Logistic Regression):通过sigmoid函数将线性回归结果映射为概率的二分类算法。
猫狗识别
主要用于预测数值型数据。
主要用于发现类别规则并预测新数据的类别。
参考:架构师带你玩转AI