专栏首页Python攻城狮Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失值3.补齐遗失值

Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失值3.补齐遗失值

成功爬取到我们所需要的数据以后,接下来应该做的是对资料进行清理和转换, 很多人遇到这种情况最自然地反应就是“写个脚本”,当然这也算是一个很好的解决方法,但是,python中还有一些第三方库,像Numpy,Pandas等,不仅可以快速简单地清理数据,还可以让非编程的人员轻松地看见和使用你的数据。接下来就让我们一起学习使用Pandas!

1.Pandas

什么是Pandas? 百度百科:Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

以下我们主要通过一些范例进行学习。

1.资料筛选

#存储元素与切割
import pandas as pd
df = pd.DataFrame(info)
df.ix[1]
# 查看特定的列
df[['name', 'age']]
# 查看特定列的特定内容
df.ix[1:2, ['name', 'age'] ]
  • 使用 & 取条件交集
df[(df['gender'] == 'M')&(df['age'] >= 30)]
  • 使用 | 取条件集合
df[(df['gender'] == 'M')|(df['age'] >= 30)]
  • 新增/删除栏位
 # 新增栏位
df['employee'] = True

# 删除栏位
del df['employee']    OR   df = df.drop('employee', 1)

# 新增第六列
df.loc[6] = {'age':20, 'gender':'F', 'name':'qoo'}
OR
df.append(pd.DataFrame([{'age':20, 'gender':'F', 'name':'qoo'}]), ignore_index=True)

# 删除第六列
df = df.drop(6)
  • 设定新的索引
# 新增的栏位
df['userid'] = range(101, 107) 

# 设置新的索引
df. set_index('userid', inplace=True)
  • 根据位置取值
# iloc可以根据位置取值
df.iloc[1]
# 查看1,3,5 列的数据
df.iloc[[1,3,5]]
  • 根据索引取值
# 使用ix取值,通过行号索引 
df.ix[[101,103,105]]

# 使用loc取值,即使用标签索引行数据
df.loc[[101,103,105]]

2.侦测遗失值

  • 缺失值是指数据中有特定或者一个范围的值是不完全的
  • 缺失值可能会导致数据分析时产生偏误的推论
  • 缺失值可能来自机械的缺失或者人为的缺失
    • 机械缺失 例: 机械故障,导致数据无法被完整保存
    • 人为缺失 例:受访者拒绝透露部分信息
import pandas as pd
import numpy as np
df = pd.DataFrame([\
                  ['frank', 'M', np.nan],\
                  ['mary', np.nan, np.nan],\
                  ['tom', 'M', 35],\
                  ['ted', 'M', 33],\
                  ['jean', np.nan, 21],\
                  ['lisa', 'F', 20]]
)
df. columns = ['name', 'gender', 'age']
df 
  • 检查序列是否有缺失值
# 检查非缺失值数据
df['gender'].notnull()

# 检查缺失值资料
df['gender'].isnull()
  • 检查字段是否含有缺失值
# 检查字段是否含有缺失值
df['age'].isnull().values.any()

# 检查DataFrame 是否还有缺失值 返回True/False
df.isnull().values.any()
  • 计算缺失值的数量
# 检查某个字段缺失值的数量
df['age'].isnull().sum()

# 检查字段缺失值的数量
df.isnull().sum()

# 计算所有缺失值的数量
df.isnull().sum().sum()

分开计算每一栏缺失值的数量

3.补齐遗失值

处理缺失值常规的有以下几种方法

  • 舍弃缺失值
    • 这种情况适用于当缺失值占数据比例很低时
  • 使用平均数、中位数、众数等叙述性统计补齐缺失值
  • 使用内插法补齐缺失值
    • 如果字段数据成线性规律

1.舍弃缺失值

  • 舍弃含有任意缺失值的行
df.dropna()
  • 舍弃所有字段都含有缺失值的行
df.dropna(how='all')
  • 舍弃超过两栏缺失值的行
df.dropna(thresh=2)

2.舍弃含有缺失值的列

  • 增加一包含缺失值的列
df['employee'] = np.nan
  • 舍弃皆为缺失值的列
df.dropna(axis=1, how = 'all')

  • 使用0值表示沿着每一列或行标签\索引值向下执行方法
  • 使用1值表示沿着每一行或者列标签模向执行对应的方法

下图代表在DataFrame当中axis为0和1时分别代表的含义(axis参数作用方向图示):

3.填补缺失值

  • 用0填补缺失值
df.fillna(0)
  • 用平均数缺失值 df['age'].mean()是age这个字段平均值
df['age'].fillna(df['age'].mean())  
  • 用各性别年龄平均填缺失值
df['age'].fillna(df.groupby('gender')['age'].transform('mean'), inplace = True)

4.向前/向后填值

  • 向后填补缺失值
df.fillna(method='pad')
  • 向前填补缺失值
df.fillna(method='bfill', limit=2)

  • pad/ffill:往后填值
  • bfill/backfill:往前填值

注意:这里的往前往后是指的从上往下

5.使用内插法填补缺失值

df2 = pd.DataFrame([[1,870],\
                   [2,900],\
                   [np.nan,np.nan],\
                   [4,950],\
                   [5,1080],\
                   [6,1200]])
df2.columns = ['time', 'val']
df2.interpolate()

按照线性规律填补完的结果

6.总结

上一阶段我们已经爬取了房天下的二手房信息,这里对我们抓取到的二手房信息进行处理

# 把暂无资料替换成物业费
df[df['物业费'] == ‘暂无资料’, ‘物业费’] = np.nan

# 在打开文件的时候,直接把暂无资料替换成缺失值
df = pandas.read_csv('data/house_data.csv', na_values = '暂无资料', index_col = 0)

# 检视前三行数据
df.head(3)

# 检视后三行资料
df.tail(3)
  • 检视DataFrame信息
df.info()
  • 检视字段名称
df.columns
  • 检视字段型态
df.dtypes
  • 取得叙述性统计
df.describe()
  • 判断栏位是否有缺失值的存在
df.isnull().any()
  • 统计栏位缺失值的数量
df.isnull().sum()
  • 舍弃参考月供这一列
df = df.drop('参考月供', axis = 1)
  • 筛选字段,筛选出产权性质中各种产权所占的数量
df['产权性质'].value_counts()
  • 筛选出建筑面积大于100且总价大于2000万的房产信息 注意:ix[ ,]中,前是条件,,是栏位
df.ix[(df['建筑面积'] > 100) & (df['总价'] > 2000), ].head(1)
  • 筛选出产权性质为个人产权的房产信息
df = df[df['产权性质'] == ‘个人产权’]
  • 对总价中缺失值进行合理的补全
df['总价'] = df['总价'].fillna(df['建筑面积'] * (df['总价'] / df['建筑面积']).mean())
  • 将数据写入CSV中
df.to_csv('house_final.csv', index_label = False)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python数据科学(九)- 使用Pandas绘制统计图表1.信息可视化

    因为人对图像信息的解析效率比文字更高,所以可视化可以使数据更为直观,便于理解,使决策变得高效,所以信息可视化就显得尤为重要。

    意气相许的许
  • Python数据科学(七)- 资料清理(Ⅱ)1.资料转换2.处理时间格式资料3.重塑资料4.学习正则表达式5.实例处理

    注意:这里的时间转换后的格式可以根据需要设定,eg:dt.strftime('%Y/%m/%d')

    意气相许的许
  • Python数据科学(八)- 资料探索与资料视觉化1.叙述性统计与推论性统计2.进行读取相关数据

    丘老师是使用pandas_datareader.DataReader来读取的雅虎提供的阿里巴巴股票数据,现在雅虎已经被弃用。这里我使用Tushare来读取金融数...

    意气相许的许
  • 基于机器学习算法的时间序列价格异常检测(附代码)

    异常检测也称为异常值检测,是一种数据挖掘过程,用于确定数据集中发现的异常类型并确定其出现的详细信息。 在当今世界,由于大量数据无法手动标记异常值,自动异常检测显...

    量化投资与机器学习微信公众号
  • pandas数据清洗,排序,索引设置,数据选取

    df.isnull() df的空值为True df.notnull() df的非空值为True

    李智
  • 数学建模中离散变量的处理——笔记二

    原文主要内容是利用Titanic数据集讲解常用的机器学习算法,原数据集的主要任务是根据相关变量预测乘客是否可以存活(It is your job to pred...

    用户7010445
  • 50道练习实践学习Pandas!

    原文地址:https://www.kesci.com/home/project/5ddc974ef41512002cec1dca

    Datawhale
  • 十分钟掌握Pandas基本操作(上)

    为了更好地掌握数据科学必备库Pandas的基本使用,本文通过精灵宝可梦的数据集实战,我们一起过一遍Pandas的基本操作,文中的代码都附有注释,并给出了结果的配...

    老肥码码码
  • 使用Pandas读取复杂Excel表单

    传统企业里,Excel仍然是数据存储,报表生成和数据分析的主力军,随着数据体量的增长,和数据分析、挖掘,BI更进一步需要,如何快速地使用Pandas来ETL E...

    Lenis
  • 用 Pandas 进行数据处理系列 二

    获取行操作df.loc[3:6]获取列操作df['rowname']取两列df[['a_name','bname']] ,里面需要是一个 list 不然会报错增...

    zucchiniy

扫码关注云+社区

领取腾讯云代金券