前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python 数据分析基础 day18-使用pandas进行数据清洗以及探索

python 数据分析基础 day18-使用pandas进行数据清洗以及探索

作者头像
billyang916
发布2018-05-02 10:16:56
1.3K0
发布2018-05-02 10:16:56
举报

今天是读《python数据分析基础》的第18天,读书笔记的内容是使用pandas进行数据清洗以及探索 由于原始数据在某种程度上是“脏”的,原始数据并不能完全使用于分析。因此,需要为其进行清洗。而为了解数据的大致情况,则需要进行数据探索。 以下是进行简单的数据清洗以及探索的代码:

注:数据来源于https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/churn.csv

#数据探索

import pandas as pd
import numpy as np


#导入数据
inputCsv='文件路径'
churn=pd.read_csv(inputCsv)


#数据预处理:将表头的空格、引号以及问号去除,以及将大写字母转换为小写字母
#print(churn.columns)
churn.columns=churn.columns.str.replace(' ','_').str.replace('\'','').str.strip('?')
churn.columns=churn.columns.str.lower()
#将churn列中元素末尾的'.'去除
churn.churn=churn.churn.str.strip('.')
#将churn转换为01编码并创建新列churn01
churn['churn01']=np.where(churn.churn=='True',1,0)
print(churn.head())


#按制定类别变量state分组计算其他变量的均值、最大值、最小值
print(churn.groupby('churn')[['day_calls','eve_calls','night_calls']].agg(['count','mean','std']))


#按指定值分组计算,并计算不同变量各自的统计值
print(churn.groupby('churn').agg({'day_calls':['mean','max','min'],'eve_calls':['mean','max','min'],'night_calls':['mean','max','min'],'day_mins':['mean','std'],'eve_mins':['mean','std'],'night_mins':['mean','std']}))


#按特定连续型变量total_charge将数据分箱并计算各组的统计值
#生成total_charge变量
churn['total_charge']=churn['day_charge']+churn['eve_charge']+churn['night_charge']+churn['intl_charge']
#按记录数量分箱
cut_cat=pd.cut(churn.total_charge,5,precision=2)
qcut_cat=pd.qcut(churn.total_charge,[0,0.25,0.5,0.75,1])
#按cut_cat和qcut_cat分别分组计算total_chage的均值
print('cut',churn.groupby(cut_cat)[['total_charge']].agg(['mean']))
print('qcut',churn.groupby(qcut_cat)[['total_charge']].agg(['mean']))


#对变量intl_plan进行独热编码:将离散型变量转换为一组二值变量
dummies=pd.get_dummies(churn.intl_plan)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.03.31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档