前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >建模常用的pandas语句

建模常用的pandas语句

作者头像
数据星河
修改2018-11-26 11:10:05
5660
修改2018-11-26 11:10:05
举报
文章被收录于专栏:数据星河数据星河

  pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

  额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

 1.导入pandas和numpy模块

  import pandas as pd

  import numpy as np

  import os

  2.查看并更改工作路径

  pwd

  os.chdir('更改的路径')

  3.读入数据集

  df=pd.read_csv(r'文件路径')

  4.查看列数、行数

  print(df1.columns.size,df.iloc[:,0].size)

  5.查看列名

  df.columns.tolist()

  6.查看每个特征的类型

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.计算坏账率

  badRate=df['target'].sum()/df['target'].count()

  8.计算特征空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小于0.2的特征

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查找数据集数值中型特征小于0的值并置为nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.设置新的索引

  df=df.reindex()

  12.检查常量特征

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.查看是否有重复特征

  len(set(list(df1.columns)))==df1.shape[1]

  14.查看特征类别数

  df1['education'].value_counts()

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档