有关机器学习的两种算法特点

随着大数据的迅速发展,机器学习变得越来越重要,它有力地处理大量数据,做出准确的预测。人工智能旨在使计算机更智能化,而机器学习已经证明了如何做到这一点。 简而言之,机器学习是人工智能的应用。 通过使用从数据中反复学习到的算法,机器学习可以改进计算机的功能,而无需进行明确的编程。

机器学习算法主要有三大类:监督学习、无监督学习和强化学习。

监督学习:使用预定义的“训练示例”集合,训练系统,便于其在新数据被馈送时也能得出结论。系统一直被训练,直到达到所需的精度水平;无监督学习:给系统一堆无标签数据,它必须自己检测模式和关系。系统要用推断功能来描述未分类数据的模式;强化学习:强化学习其实是一个连续决策的过程,这个过程有点像有监督学习,只是标注数据不是预先准备好的,而是通过一个过程来回调整,并给出“标注数据”。

机器学习三大类别中常用的机器学习常见算法决策树和逻辑回归的特点。

决策树

优点:

(1)计算简单,易于理解,可解释性强;

(2)比较适合处理有缺失属性的样本;

(3)能够处理不相关的特征;

(4)在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

缺点

(1)容易发生过拟合,要配合随机森林一同使用。

(2)忽略了数据之间的相关性;

(3)对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是使用了信息增益,都有这个缺点,如RF)。

Logistic Regression(逻辑回归)

优点:

(1)实现简单,广泛的应用于工业问题上;

(2)分类时计算量非常小,速度很快,存储资源低;

(3)便利的观测样本概率分数;

(4)对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;

缺点:

(1)当特征空间很大时,逻辑回归的性能不是很好;

(2)容易欠拟合,一般准确度不太高

(3)不能很好地处理大量多类特征或变量;

(4)只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;

(5)对于非线性特征,需要进行转换;

文章来源:www.xixi.ai(息息人工智能)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180804A0WITA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励