常用机器学习算法优缺点及其应用领域

决策树

决策树优点

1、决策树易于理解和解释,可以可视化分析,容易提取出规则。

2、可以同时处理标称型和数值型数据。

3、测试数据集时,运行速度比较快。

4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。

决策树缺点

1、对缺失数据处理比较困难。

2、容易出现过拟合问题。

3、忽略数据集中属性的相互关联。

4、ID3算法计算信息增益时结果偏向数值比较多的特征。

改进措施

1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。

2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。

应用领域

企业管理实践,企业投资决策,由于决策树很好的分析能力,在决策过程应用较多。

KNN算法

KNN算法的优点

1、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练

2、KNN理论简单,容易实现

KNN算法的缺点

1、对于样本容量大的数据集计算量比较大。

2、样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。

3、KNN每一次分类都会重新进行一次全局运算。

4、k值大小的选择。

KNN算法应用领域

文本分类、模式识别、聚类分析,多分类领域

支持向量机(SVM)

SVM优点

1、解决小样本下机器学习问题。

2、解决非线性问题。

3、无局部极小值问题。(相对于神经网络等算法)

4、可以很好的处理高维数据集。

5、泛化能力比较强。

SVM缺点

1、对于核函数的高维映射解释力不强,尤其是径向基函数。

2、对缺失数据敏感。

SVM应用领域

文本分类、图像识别、主要二分类领域

AdaBoost算法

AdaBoost算法优点

1、很好的利用了弱分类器进行级联。

2、可以将不同的分类算法作为弱分类器。

3、AdaBoost具有很高的精度。

4、相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。

AdaBoost算法优点

1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。

2、数据不平衡导致分类精度下降。

3、训练比较耗时,每次重新选择当前分类器最好切分点。

AdaBoost应用领域

模式识别、计算机视觉领域,用于二分类和多分类场景

朴素贝叶斯算法

朴素贝叶斯算法优点

1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。

2、支持增量式运算。即可以实时的对新增的样本进行训练。

3、朴素贝叶斯对结果解释容易理解。

朴素贝叶斯缺点

1、由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。

朴素贝叶斯应用领域

  • 欺诈检测中使用较多
  • 一封电子邮件是否是垃圾邮件
  • 一篇文章应该分到科技、政治,还是体育类
  • 一段文字表达的是积极的情绪还是消极的情绪?
  • 人脸识别

Logistic回归算法

Logistic回归优点

1、计算代价不高,易于理解和实现

Logistic回归缺点

1、容易产生欠拟合。

2、分类精度不高。

logistic回归应用领域

用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等。

Logistic回归的扩展softmax可以应用于多分类领域,如手写字识别等。

信用评估

测量市场营销的成功度

预测某个产品的收益

特定的某天是否会发生地震

人工神经网络

神经网络优点

1、分类准确度高,学习能力极强。

2、对噪声数据鲁棒性和容错性较强。

3、有联想能力,能逼近任意非线性关系。

神经网络缺点

1、神经网络参数较多,权值和阈值。

2、黑盒过程,不能观察中间结果。

3、学习过程比较长,有可能陷入局部极小值。

人工神经网络应用领域

目前深度神经网络已经应用与计算机视觉,自然语言处理,语音识别等领域并取得很好的效果。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

在实践中正确应用机器学习的12条法则

1844
来自专栏机器之心

资源 | 从反向传播到迁移学习,盘点人工智能从业者必备的10个深度学习方法

3097
来自专栏大数据挖掘DT机器学习

机器学习在实践中如何正确应用?

前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,尤其...

3666
来自专栏机器之心

学界 | 从可视化到新模型:纵览深度学习的视觉可解释性

选自arXiv 作者:张拳石、朱松纯 机器之心编译 参与:乾树、李泽南 在本篇论文中,来自 UCLA 的研究人员就目前有关理解神经网络表征和用可解释/分离式表征...

4205
来自专栏数据科学与人工智能

【机器学习】机器学习的应用——关于正确应用机器学习

引言 前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,...

2568
来自专栏机器学习算法与Python学习

深度学习中的10中方法,你知道的!

在过去十年中,人们对机器学习的兴趣激增。几乎每天,我们都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论...

763
来自专栏AI科技评论

视频 | 神经网络平常都在做些啥?可视化特征解释了一下

来源/ Arxiv Insights 翻译/ 龙翔 校对/ 凡江 整理/ 廖颖 喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arx...

35510
来自专栏人工智能

揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性

原标题:揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性 选自arXiv 作者:RenéVidal、Joan Bruna、Raja Giryes、Ste...

2756
来自专栏数据科学与人工智能

【机器学习】机器学习从“看”到“做”的实战经验

引言 前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,尤其是能...

2268
来自专栏大数据挖掘DT机器学习

学了统计、算法,如何正确应用机器学习?

原文:http://blog.csdn.net/google19890102/article/details/40680687 学习了一段时间的机器学习算...

3119

扫码关注云+社区