首页
学习
活动
专区
工具
TVP
发布

机器学习算法——随机森林算法简介

欢迎各位大哥大姐来到小编的文章,希望小编辛勤的写作,能给大伙带来开心和笑容,如果真的如此请关注评论,这样小编就更加的有信心了。

机器学习算法——随机森林算法简介,2随机森林的相关术语

1 .信息熵以及信息增益的概念

当熵越大,不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。

2.决策树

其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。下图给出了一棵决策树的例子:

3.集成学习

各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。随机森林是集成学习的一个子类,它依靠于决策树的投票选择来决定最后的分类结果。

3随机森林的特点

具有极好的准确率能够有效地运行在大数据集上能够处理具有高维特征的输入样本,而且不需要降维能够评估各个特征在分类问题上的重要性在生成过程中,能够获取到内部生成误差的一种无偏估计对于缺省值问题也能够获得很好得结果4 随机森林的生成

我们需要将输入样本输入到每棵树中进行分类。打个形象的比喻:森林中召开会议,讨论某个动物到底是老鼠还是松鼠,每棵树都要独立地发表自己对这个问题的看法,也就是每棵树都要投票。该动物到底是老鼠还是松鼠,要依据投票情况来确定,获得票数最多的类别就是森林的分类结果。森林中的每棵树都是独立的,99.9%不相关的树做出的预测结果涵盖所有的情况,这些预测结果将会彼此抵消。少数优秀的树的预测结会忽略“噪音”,做出一个好的预测。将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器,这就是随机森林bagging的思想。下图可以形象地描述这个情况:

文章到此结束了,但是小编跟大家的沟通还远远没有结束,如果有哪位大哥大姐有什么想说想吐糟的,不妨在下方的留言评论区留下您的痕迹,小编会永远默默的关注着你,你的每条评论我都会看到也会精心的回复大家,你的关注留言就是小编最有力的动力。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190113A0IBSF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券