首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python数据分析之pandas(三)

这一篇我们主要来介绍如何来处理数据中的缺失值。

在真实世界的项目中,我们经常会碰到数据缺失,不完整的情况,用pandas就可以进行比较完善的处理。

pandas处理的缺失值类型主要有两种:

A.None,Python对象类型的缺失值。

B.NaN,not a number,非数字。

而这两种类型是可以互相转换的。区别在于,None无法进行运算,会返回异常;NaN是一种特殊类型的浮点数,可以进行计算,尽管有时没有意义。

我们要处理缺失值,首先要发现它。发现缺失值有2种方法,isnull()和notnull()。

如上图,缺失值返回True,正常值返回False。还可以用notnull来筛选非缺失值:

发现缺失值后,我们有2种方法可以处理它。一种是删除(dropna),一种是填充(fillna)。

而在DataFrame中,如果直接使用dropna(),会将整行或整列全部删掉。如果添加‘how=all’,则整行或整列全部为缺失值才会删除。

我们再来看看填充:

现在假设我们要用现有数据的平均值来填充缺失值,可以进行如下操作:

可以看到,b、d对应的值被填充为a、c、e的均值2.

除此之外,我们还可以从前往后进行填充:

我们也可以从后往前填充:

好了,这就是今天的内容,下次再会。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190209G06H2M00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券