首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用pandas进行数据分析(三):缺失值处理

在实际的数据处理过程中,数据缺失是一种再平常不过的现象了。缺失值的存在极大的影响了我们数据分析结果的可靠性,以至于在数据建模前我们必须对缺失值进行处理。实际的缺失值处理主要包括两个部分:即识别数据集中的缺失值和如何处理缺失。 相较于,在数据缺失处理方面提供了大量的函数和包,但未免有些冗余。而中的缺失处理则显得高效精炼。在中,不必去计较你的数据集中的缺失到底是随机缺失还是非随机缺失,你只需要用函数将缺失识别出来然后视数据集大小决定是删除还是插补就可以了。

缺失值的识别

作为最初的设计目标之一,尽可能简单的处理缺失值是其一大特点。使用浮点值表示浮点和非浮点数组中的缺失数据,其意义只是为了能让将其检测出为缺失值而已。 创建一个包含缺失值的:

使用方法识别缺失:

在里也是会被当成缺失处理的:

剔除缺失值

如果缺失值在数据集中只有少量数据,因而对最后的数据分析结果并无大的影响的情况下,我们大可直接将其从数据集中剔除,这是最简单快速的一种缺失数据的处理方案。提供了方法可以剔除缺失:

当然也可以通过布尔逻辑型索引对缺失进行剔除:

以上是针对的缺失值剔除方法,再来看:

针对的行列属性,我们也可以选择在指定行和列上进行缺失值剔除:

插补缺失值

在缺失数据较少的情形下,对缺失值直接进行剔除是没问题的,一旦数据集中数据缺失量达到很大比例,恐怕简单的数据剔除并不是一个好的办法。这时候缺失数据的插补法是一个较好的方法,提供了灵活的数据插补方法。

为缺失值的插补提供了灵活的处理方案:

可以使用字典进行插补:

也可以自定义一些数据插补方法,比如均值插补等:

关于数据缺失的处理内容,小编就介绍到这哪儿啦。

参考资料:

python for data analysis

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217B0JDEZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券