首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第三章 数据规整化

视频分享,敬请关注

未经授权,请勿转载

文:朱元禄(jacky)

目录

1、去重

2、缺失值处理

3、清洗字符型数据的空格

4、字段抽取

去重

把数据结构中,行相同的数据只保留一行

函数语法:

drop_duplicates()

缺失值处理

缺失数据的产生

数据暂时无法获取

比如未成年儿童的收入等

有些数据被遗漏或错误处理了

缺失数据的处理方式

缺失数据在实际工作中,是不可避免的,本部分还是很重要的

数据补齐

用一定的值去填充空值,使数据完备化,如平均值填充等等

删除对应缺失行

不处理

如何删除缺失数据的所在行

在python中,使用dropna函数进行缺失数据的清洗

dropna函数作用:去除数据结构中值为空的数据

dropna函数语法:dropna()

在pandas的数据框中,缺失值用NaN来标注

如何数据框对应的位置是NaN值,那么isnull方法对应的就是布尔值True,根据这个特征,就可以使用数据框的行获取方法,获取出NaN值所在的行

特别注意定位gender的字符串有两个中括号,不能是一个

清洗字符型数据的空格

strip函数作用:清除字符型数据左右的空格

strip函数语法:strip()

字段抽取

字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列

字段截取函数:slice(start开始位置,stop结束位置)

与数据结构的访问方式一样,开始位置是从0开始的,开始位置是大于等于,结束位置是小于,不能取等于

slice函数默认只能处理字符型数据,如要处理数字型数据,必须进行转化

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180327G18CKZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券