前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据清洗 Chapter06 | 数据缺失概述

数据清洗 Chapter06 | 数据缺失概述

作者头像
不温卜火
发布2020-10-28 17:17:10
6680
发布2020-10-28 17:17:10
举报
文章被收录于专栏:不温卜火

1、数据缺失的原因

数据采集过程可能会造成数据缺失 数据通过网络等渠道进行传输时可能出现数据丢失或出错,造成数据丢失 在数据整合过程中也可能引入缺失值

2、缺失值表示

  • 1、数据集对于缺失值有不同的表示

取决于数据收集,数据录入流程中的设定 如:字符的缺失值有missing,空格等;数字为999,-600等

  • 2、常见的表示缺失值的字符

null,missing,nan 自定义字符,比如unkown 3、缺失值的表示格式

1
1
  • 4、在Python语言的Numpy库的缺失值:

表示:numpy.nan/numpy.NaN 类型:浮点(float)型

代码语言:javascript
复制
import numpy as np

print('np.nan的属性为:'+str(type(np.nan)))
print('np.NaN的属性为:'+str(type(np.NaN)))
2
2

在Python语言的Pandas库中,缺失值默认使用numpy.nan表示 Pandas库可以用其他字符来代替nan,如missing,NA等 下列代码生成含有默认缺失值的Series数组example_data

代码语言:javascript
复制
import numpy as np
import pandas as pd
example_data =pd.Series([1,2,3,np.nan,4])
example_data
3
3
  • 5、反过来

如果给定数据中的缺失值是用其他字符来表示的,我们可以用NaN进行替换,由于numpy.nan为float型,再将数据转换为浮点型即可。

代码语言:javascript
复制
example_data1 =pd.Series([1,2,3,‘missing’,4])
example_data1

# 替换
example_data1.replace('missing',np.NaN)
4
4
5
5

  本次的分享就到这里了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/07/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、数据缺失的原因
  • 2、缺失值表示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档