决策树,聚类和线性回归算法之间的差异已经在很多文章中得到了说明(比如这个和这个)。但是, 在哪里使用这些算法并不总是很清楚。通过这篇博文,我将解释在哪里可以使用这些机器学习算法,以及根据你的需求选择特定算法时应考虑哪些因素。
线性回归的一些用途:
另外线性回归还经常用于其他一些使用案例比如说股票交易,电子游戏,体育博彩和飞行时间预测等。
决策树的一些用途:
聚类算法的一些用途是:
现在您已经了解了用例以及这些机器学习算法在何处可以展现价值,接下来让我们讨论如何根据需求选择完美的算法。
让我们来谈谈分类和回归功能,错误率,数据兼容性,数据质量,计算复杂度,可理解性和透明度。
回归模型可以预测一个连续变量,例如一天的销售量或一个城市的温度。
在建立分类能力时才是难题所在,他们依赖多项式(如直线)来拟合数据集。
假设你有一条数据线符合训练要点,如果你想添加另一个数据点,但要适应它,你就需要改变你现有的模型(也可能是阈值本身),这将发生在我们添加到模型的每个数据点上; 因此,线性回归对于分类模型并不友好。
在减少错误率方面,线性回归比其他算法弱。
线性回归依赖于连续的数据来建立回归能力。
每个缺失的值将删除一个可以优化回归的数据点。在简单线性回归中,异常值可能会显着破坏结果。
与决策树和聚类算法相比,线性回归通常在计算成本上并不昂贵。N个训练实例和X的特征复杂度顺序通常为O(X2),O(XN),或O(C 3)。
它们本质上很容易被理解且算法透明。它们可以用简单的易懂的数学符号表示给任何人。
决策树是将对象分类为已知组的一种方法。他们是一种监督学习的形式。
聚类算法可以进一步分类为“急切学习”(eager learners),因为他们首先在训练数据集上建立分类模型,然后对测试数据集进行分类。这种决策树的性质以及渴望对未知量进行分类是他们被称为“急切学习”的原因。
决策树与两种类型的任务兼容 - 回归和分类。
由于决策树具有内存分类模型,因此不会带来高昂的计算成本,因为它们不需要频繁进行数据库查找。
决策树无法简单地模拟任意的决策边界。
因其基于规则决策的极端透明度而被银行广泛用于贷款审批。
决策树能够处理高度错误和缺失值的数据集。
随着决策树的批量工作,一次也只建立一组训练观察模型。因此,他们不适合增量学习。
它们的错误率相对较高,但不如线性回归那么差。
决策树可以处理具有数字和标称输入属性的数据。
众所周知决策树是没有对空间分布或分类器结构的任何假设。
如果存在复杂的,人为的无形因素,这些算法往往会产生错误的结果。例如,在客户细分等情况下,很难想象决策树会返回准确的细分。
通常使用聚类算法来找出多个不同变量的主题是如何相似的。他们是无监督学习的一种形式。
然而,聚类算法不是急切学习,而是直接从训练实例中学习。他们只有在得到测试观察分类后才开始处理数据。
聚类算法不能用于回归任务。
聚类可以处理大多数类型的数据集并忽略缺失的值。
它们既能有效地处理连续值也可以计算阶乘数据值。
与决策树不同,聚类算法通常不会有相同程度的可理解性和透明度。通常情况下,他们需要很多实施层面的解释给决策者。
聚类算法通常需要频繁的数据库查找。因此,它们通常可能在计算成本上很昂贵。
由于基于实例的学习,微调聚类算法可以容易地包含任意复杂的决策边界。
聚类显然是支持增量学习的,并且相对于线性回归和决策树无疑是首选。
聚类错误测试的错误率更接近于贝叶斯分类器。
由于聚类算法能够处理复杂的任意边界,所以相较于决策树能够更好处理多个属性和复杂的交互。
我希望这可以帮助你开始使用这些算法!
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有