建模常用的pandas语句

  pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

  额外提一句哈。小编不私聊哈,有事的话请加qq群的,微信群已满。

 1.导入pandas和numpy模块

  import pandas as pd

  import numpy as np

  import os

  2.查看并更改工作路径

  pwd

  os.chdir('更改的路径')

  3.读入数据集

  df=pd.read_csv(r'文件路径')

  4.查看列数、行数

  print(df1.columns.size,df.iloc[:,0].size)

  5.查看列名

  df.columns.tolist()

  6.查看每个特征的类型

  for col in fk_df.columns:print(col,fk_df[col].dtype)

  7.计算坏账率

  badRate=df['target'].sum()/df['target'].count()

  8.计算特征空值率

  null_rate=1-df.count()/df.shape[0]

  9.保留空值率小于0.2的特征

  cols=null_rate[null_rate<0.2].index.tolist()

  10.查找数据集数值中型特征小于0的值并置为nan

  def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

  11.设置新的索引

  df=df.reindex()

  12.检查常量特征

  df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

  13.查看是否有重复特征

  len(set(list(df1.columns)))==df1.shape[1]

  14.查看特征类别数

  df1['education'].value_counts()

原文链接:https://www.bdgstore.com.cn/portal/article/index/id/294.html

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

将 Tensorflow 图序列化以及反序列化的巧妙方法

将类中的字段和 graph 中的 tensorflow 变量进行自动绑定,并且在不需要手动将变量从 graph 中取出的情况下进行重存,听起来有没有很炫酷?

1444
来自专栏应兆康的专栏

100个Numpy练习【2】

翻译:YingJoy 网址: https://www.yingjoy.cn/ 来源: https://github.com/rougier/numpy-100...

52610
来自专栏GopherCoder

Python 强化训练:第二篇

1655
来自专栏云时之间

深度学习与神经网络:制作数据集,完成应用(1)

1954
来自专栏云时之间

深度学习与神经网络:制作数据集,完成应用(1)

在这一篇文章里,我们将继续上一篇文章的工作,并且在上一篇文章的前提下加入数据集的制作,最终我们将完成这个全连接神经网络的小栗子.

7826
来自专栏mathor

LeetCode130. 被围绕的区域

 bfs题,主函数中枚举每一个起点,如果是'O'就开始bfs搜索,首先将'O'变为'X',然后将周围是'O'都入队。这里有个地方要注意,如果'O'并不是被...

912
来自专栏瓜大三哥

直方图操作(三)

直方图操作(三) 之读出电路 顺序读出:即灰度值为0的统计值首先输出,其次是灰度值为1的统计值输出。读出电路如下图 ? 只有当计数完成,并且外部时序申请读出时...

1969
来自专栏C语言及其他语言

【每日一题】1442[蓝桥杯][历届试题]打印十字图

继续给大家来一个蓝桥杯的真题,想练就能成大神! 请看题: 问题描述 小明为某机构设计了一个十字型的徽标(并非红十字会啊),如下所示: ..$$$$$...

2849
来自专栏C语言及其他语言

【优秀题解】1168题【简单计算】题解

题目描述 有一个n+2个元素a[0], a[1], ..., a[n+1] (n <= 3000, -1000 <= a[i] <=1000)构成的数列. 已...

36410
来自专栏生信小驿站

R 热图绘制heatmap②

984

扫码关注云+社区