何时使用线性回归,聚类或决策树

决策树,聚类和线性回归算法之间的差异已经在很多文章中得到了说明(比如这个这个)。但是, 在哪里使用这些算法并不总是很清楚。通过这篇博文,我将解释在哪里可以使用这些机器学习算法,以及根据你的需求选择特定算法时应考虑哪些因素。

线性回归用例

线性回归的一些用途:

  • 产品的销售; 定价,表现性能和风险参数
  • 产生对消费者行为,盈利能力和其他商业因素的预见
  • 趋势评估; 做出估计和预测
  • 确定产品销售的营销效果,定价和促销
  • 金融服务和保险领域的风险评估
  • 从汽车测试数据中研究发动机的性能
  • 计算生物系统参数之间的因果关系
  • 进行市场调研和客户调查结果分析
  • 天文数据分析
  • 随着房屋面积的增加预测房价

另外线性回归还经常用于其他一些使用案例比如说股票交易,电子游戏,体育博彩和飞行时间预测等。

决策树用例

决策树的一些用途:

  • 建立客户服务知识管理平台,提高首次呼叫解决率,优化平均处理时间以及提升客户满意率
  • 在金融方面,预测未来的结果并计算这些结果的概率
  • 二项期权定价预测与实物期权分析
  • 客户在给定的环境下购买给定的产品的意愿,换言之离线或是在线
  • 产品规划; 例如,格柏产品公司(Gerber Products,Inc.)使用决策树来决定是否继续为制造玩具规划PVC
  • 一般商业决策
  • 贷款批准

集群用例

聚类算法的一些用途是:

  • 客户细分
  • 利用物理尺度对物种进行分类
  • 产品分类
  • 电影推荐
  • 识别在特定区域放置蜂窝塔的位置
  • 有效的警方执法
  • 设置紧急病房在一个最容易发生事故的地区
  • 聚类基因
  • 属性数量的影响

如何选择合适的机器学习算法

现在您已经了解了用例以及这些机器学习算法在何处可以展现价值,接下来让我们讨论如何根据需求选择完美的算法。

线性回归选择标准

让我们来谈谈分类和回归功能,错误率,数据兼容性,数据质量,计算复杂度,可理解性和透明度。

分类和回归能力

回归模型可以预测一个连续变量,例如一天的销售量或一个城市的温度。

在建立分类能力时才是难题所在,他们依赖多项式(如直线)来拟合数据集。

假设你有一条数据线符合训练要点,如果你想添加另一个数据点,但要适应它,你就需要改变你现有的模型(也可能是阈值本身),这将发生在我们添加到模型的每个数据点上; 因此,线性回归对于分类模型并不友好。

错误率

在减少错误率方面,线性回归比其他算法弱。

数据兼容性

线性回归依赖于连续的数据来建立回归能力。

数据质量

每个缺失的值将删除一个可以优化回归的数据点。在简单线性回归中,异常值可能会显着破坏结果。

计算复杂度

与决策树和聚类算法相比,线性回归通常在计算成本上并不昂贵。N个训练实例和X的特征复杂度顺序通常为O(X2),O(XN),或O(C 3)。

可理解性和透明度

它们本质上很容易被理解且算法透明。它们可以用简单的易懂的数学符号表示给任何人。

决策树选择标准

决策树是将对象分类为已知组的一种方法。他们是一种监督学习的形式。

聚类算法可以进一步分类为“急切学习”(eager learners),因为他们首先在训练数据集上建立分类模型,然后对测试数据集进行分类。这种决策树的性质以及渴望对未知量进行分类是他们被称为“急切学习”的原因。

分类和回归能力

决策树与两种类型的任务兼容 - 回归和分类。

计算效率

由于决策树具有内存分类模型,因此不会带来高昂的计算成本,因为它们不需要频繁进行数据库查找。

任意复杂决策边界

决策树无法简单地模拟任意的决策边界。

可理解性和透明度

因其基于规则决策的极端透明度而被银行广泛用于贷款审批。

数据质量

决策树能够处理高度错误和缺失值的数据集。

增量学习

随着决策树的批量工作,一次也只建立一组训练观察模型。因此,他们不适合增量学习。

错误率

它们的错误率相对较高,但不如线性回归那么差。

数据兼容性

决策树可以处理具有数字和标称输入属性的数据。

假设

众所周知决策树是没有对空间分布或分类器结构的任何假设。

属性数量的影响

如果存在复杂的,人为的无形因素,这些算法往往会产生错误的结果。例如,在客户细分等情况下,很难想象决策树会返回准确的细分。

聚类算法选择标准

通常使用聚类算法来找出多个不同变量的主题是如何相似的。他们是无监督学习的一种形式。

然而,聚类算法不是急切学习,而是直接从训练实例中学习。他们只有在得到测试观察分类后才开始处理数据。

分类和回归能力

聚类算法不能用于回归任务。

数据处理能力

聚类可以处理大多数类型的数据集并忽略缺失的值。

数据集质量

它们既能有效地处理连续值也可以计算阶乘数据值。

可理解性和透明度

与决策树不同,聚类算法通常不会有相同程度的可理解性和透明度。通常情况下,他们需要很多实施层面的解释给决策者。

计算效率

聚类算法通常需要频繁的数据库查找。因此,它们通常可能在计算成本上很昂贵。

任意复杂决策边界

由于基于实例的学习,微调聚类算法可以容易地包含任意复杂的决策边界。

增量学习

聚类显然是支持增量学习的,并且相对于线性回归和决策树无疑是首选。

错误率

聚类错误测试的错误率更接近于贝叶斯分类器。

属性数量的影响

由于聚类算法能够处理复杂的任意边界,所以相较于决策树能够更好处理多个属性和复杂的交互。

我希望这可以帮助你开始使用这些算法!

本文的版权归 亦非demo 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

LIME:一种解释机器学习模型的方法

3984
来自专栏目标检测和深度学习

学界 | 结合主动学习与迁移学习:让医学图像标注工作量减少一半

选自arXiv 作者:Zongwei Zhou, Jae Y. Shin, Suryakanth R. Gurudu, Michael B. Gotway, 梁...

3295
来自专栏量子位

DeepMind提出训练网络新方法,快速找到最佳超参数和模型

安妮 编译自 DeepMind官方博客 量子位 出品 | 公众号 QbitAI 从围棋到雅达利游戏、再到图像识别和语言翻译,神经网络在各领域已经崭露头角。 一直...

3628
来自专栏AI研习社

智能手机哪家强?实时人像分割大比拼!

近年来,各种图像效果越来越受到人们的关注。散景一个很受欢迎的例子是在图像的非聚焦范围进行虚化。这个效果由快速镜头大光圈实现。不幸的是,手机摄像头很难实现这种效果...

1422
来自专栏新智元

DeepMind提出快速调参新算法PBT,适用GAN训练(附论文)

来源: DeepMind 编译:马文 【新智元导读】DeepMind在最新的一篇论文 Population Based Training of Neural N...

4249
来自专栏PPV课数据科学社区

【学习】数据模型需要多少训练数据?

有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 【编者的话】毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术...

3686
来自专栏信数据得永生

《Scikit-Learn与TensorFlow机器学习实用指南》 第1章 机器学习概览

46410
来自专栏DT数据侠

看脸时代,“颜值”竟然都有了计算方法!

“魔镜魔镜告诉我,谁是世界上最美的女人?”这句伴随童年的话也有现实版哦~神经网络可以预测人脸颜值,这方面也出现了不少研究。今年年初华南理工大学的研究者发布论文,...

1200
来自专栏AI科技评论

深度、卷积、和递归三种模型中,哪个将是人类行为识别方面的佼佼者?

导读:2016国际人工智能联合会议(IJCAI2016)于7月9日至7月15日举行,今年会议聚焦于人类意识的人工智能。本文是IJCAI2016接收论文之一,除了...

4699
来自专栏机器之心

深度神经网络全面概述:从基本概念到实际模型和硬件基础

选自arxiv 作者:Joel Emer等 机器之心编译 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由 IEEE F...

52319

扫码关注云+社区