大数据中填充缺失值很有效的树模型算法，MissForest算法

文章来源：企鹅号 - 凯迪尼信息

科技的发展推动了历史的车轮，技术的革新，见证了社会的变迁。用科技的力量，简化生活，用知识的海洋，强化科技的实力。大家好，我是你们最信赖的小编，今天小编继续用嘴准确的数据，最公正的视角，为大家带来最严谨的科技评测，让我们一起品读吧。

很多时候在处理数据时都会遇到数据缺失值的情况，面对数据缺失值，简单的方法可以是在连续型变量中填充中位数、平均数等，在离散型变量中填充众数。不过这些方法对原始数据的分布会造成影响，加大了数据集本身的偏差。

更有用的做法是利用模型学习数据集本身的结构，譬如K-means插值、混合高斯分布插值等，以下我们来介绍一种挺简单但很有用的方法：MissForest。

以下内容就直接简明扼要，有疑问欢迎在评论区讨论。

核心思路

利用已知的变量数据当作特征，将缺失值的变量当作标签。

其中在标签中有数值的数据为训练集，缺失数据标签部分为测试集。

然后通过随机森林预测去更新缺失值

基本算法

X是一个n*p的特征矩阵，γ是迭代次数；

对缺失值做初始更新；(若连续型值可用中位数、平均数代替，离散可用众数代替)

对X中的特征项根据缺失率从小到大进行排序，设为k。

收敛函数

收敛函数指迭代中缺失值的变化大小，如果收敛值随着迭代次数变小，则说明模型趋于稳定。

对于连续型变量：

对于离散型变量：

其中NA是在离散变量中的总的缺失值数量。

文章依旧是这么的短暂，寥寥几句就已经结束，又到了小编该和各位读者朋友们说再见的时候了，小编每天都会持续更新严谨公证的评测文章和科技的新闻资讯，趣事看点。如果你和小编一样喜欢科技、热爱科技，你一定不要忘记给小编点个关注哦，点关注不迷路，感谢各位读者的支持，让我们一起去见证中国，见证世界的科技发展，我们下期再见。

发表于: 2018-10-152018-10-15 03:39:39
原文链接：https://kuaibao.qq.com/s/20181015A05G8300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大数据中填充缺失值很有效的树模型算法，MissForest算法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐