前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >问题没那么复杂之朴素的贝叶斯

问题没那么复杂之朴素的贝叶斯

作者头像
用户8612862
发布2021-05-13 17:04:27
6970
发布2021-05-13 17:04:27
举报
文章被收录于专栏:人人都是数据分析师

对于分类,怎么可以少了贝叶斯学派的理论。万事万物概率看,且看且成长的人生哲理屡试不爽。试想当有人问你某件事是否会发生的时候,你闪动睿智的炯炯目光,轻扇白羽扇,回答到:有百分之八十的概率发生。这格调是不是比直接回答会发生提升了一大截(强行加戏)。所以,本篇我们一起来学习一下贝叶斯分类器的基础,朴素贝叶斯分类器。

故事引入

贝叶斯分类器

朴素贝叶斯分类器

处理问题的步骤

处理技巧-平滑化

举个例子

模型进化-类别敏感问题

小结

分类模型综合比较

截至现在,我们已经介绍了四种常见的分类模型,包括朴素贝叶斯,逻辑回归,SVM和决策树,下面我们综合比较一下这些算法在实际应用中优缺点及选择顺序。首先对于两种相对容易实现的算法朴素贝叶斯和逻辑回归:朴素贝叶斯是生成模型,依赖属性独立性的假设和合适的先验假设;逻辑回归是线性判别模型,最小二乘法目标驱动。它们共同的优点是直接给出预测结果概率,但是毕竟是线性模型,所以实际中效果往往不是最优的。有文献研究结果表明在小样本上朴素贝叶斯表现更好,随着数据增多,特征维度增大,逻辑回归效果更好。如果两种模型都无法达到精度的要求,我们需要尝试更复杂的模型。

前文介绍SVM算法时,曾经给出逻辑回归和SVM一些异同点,SVM方法主要优势是非线性(适合高维数据)、稳健(对异常值不敏感)、自带正则项很少过拟合,但是数据量较大时计算资源消耗较大。对于另外一种非线性的算法决策树,无超参数生成决策树,快捷方便,虽然单棵决策树一般效果不如SVM,还容易过拟合,但是基于树的集成方法大大克服了这些困难,但同时计算复杂度也相应提升,好在一些集成方法较为适合并行或者在线学习。

综上所述,对于小样本数据集,一般先用朴素贝叶斯提供一个基准,如果效果已经达到满足程度即可,不满足建议直接使用SVM,因为它性能超棒,计算资源也允许;随着样本量增加,可使用逻辑回归作为基准,效果不满意时,顺序尝试决策树,SVM和基于树的集成方法;对于大样本,需要执行并行任务或者在线更新模型时,建议以逻辑回归作为基准,然后这时基于树的集成模型(例如随机森林)可发挥更好的效果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人人都是数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档