视频分享,敬请关注
未经授权,请勿转载
文:朱元禄(jacky)
目录
1、去重
2、缺失值处理
3、清洗字符型数据的空格
4、字段抽取
去重
把数据结构中,行相同的数据只保留一行
函数语法:
drop_duplicates()
缺失值处理
缺失数据的产生
数据暂时无法获取
比如未成年儿童的收入等
有些数据被遗漏或错误处理了
缺失数据的处理方式
缺失数据在实际工作中,是不可避免的,本部分还是很重要的
数据补齐
用一定的值去填充空值,使数据完备化,如平均值填充等等
删除对应缺失行
不处理
如何删除缺失数据的所在行
在python中,使用dropna函数进行缺失数据的清洗
dropna函数作用:去除数据结构中值为空的数据
dropna函数语法:dropna()
在pandas的数据框中,缺失值用NaN来标注
如何数据框对应的位置是NaN值,那么isnull方法对应的就是布尔值True,根据这个特征,就可以使用数据框的行获取方法,获取出NaN值所在的行
特别注意定位gender的字符串有两个中括号,不能是一个
清洗字符型数据的空格
strip函数作用:清除字符型数据左右的空格
strip函数语法:strip()
字段抽取
字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列
字段截取函数:slice(start开始位置,stop结束位置)
与数据结构的访问方式一样,开始位置是从0开始的,开始位置是大于等于,结束位置是小于,不能取等于
slice函数默认只能处理字符型数据,如要处理数字型数据,必须进行转化
领取专属 10元无门槛券
私享最新 技术干货