还在发愁Python怎么入门?这23个Pandas code绝对是Python入门快车道

这篇文章清清楚楚地罗列了23个可以帮助你更好的了解数据的Pandas Code

(1)读取CSV格式的数据

pd.DataFrame.from_csv(“csv_file”)

OR

pd.read_csv(“csv_file”)

(2)读取Excel格式的数据

pd.read_excel("excel_file")

(3)把data frame转换成csv格式

Comma separated and without the indices

df.to_csv("data.csv", sep=",", index=False)

(4)数据集的基础信息

df.info()

(5)数据集的基础统计情况

print(df.describe())

(6)把data frame格式展示成为表格

print(tabulate(print_table, headers=headers))

“print_table”是lists中的一个list,“headers”是string headers的一个list

(7)查看列名

df.columns

基础数据处理

(8)删除缺失数据

df.dropna(axis=0, how=‘any')

(9)替换缺失数据

df.replace(to_replace=None, value=None)

替换“to_replace”为“value”

(10)检查NANs

pd.isnull(object).sum()

检查缺失数据(数字数组中的NaN,对象数组中的NaN)

(11)删除一个变量

df.drop('feature_variable_name', axis=1)

坐标轴值是表示行,坐标轴值是1表示列

(12)把数据类型转换成float

pd.to_numeric(df["feature_name"], errors='coerce')

把格式转换成numeric以便于方便计算(如果是string格式的会不方便计算)

(13)把data frame转化为numpy array

df.as_matrix()

(14)查看前“n”排的数据

df.head(n)

(15)根据特征名字提取数据

df.loc[feature_name]

Operating on data frames

(16)这个code会把“height”这一列的所有数值都乘2

df["height"].apply(lambdaheight: 2 * height)

OR

def multiply(x):

return x * 2

df[“height"].apply(multiply)

(17)这个code会重命名data frame的一个column为“size”

df.rename(columns = , inplace=True)

(18)提取一列里的“name”

Here we will get the unique entries of the column “name”

df[“name"].unique()

(19)提取sub-data frames

这里我们从data frame里选取“name”和“size”这两列

new_df = df[["name", "size"]]

(20) Summary information about your data

Summary数据信息

# Sum of values in a data frame

df.sum()

# Lowest value of a data frame

df.min()

# Highest value

df.max()

# Index of the lowest value

df.idxmin()

# Index of the highest value

df.idxmax()

# Average values

df.mean()

# Median values

df.median()

# Correlation between columns

df.corr()

# To get these values for only one column, just select it like this#

df["size"].median()

(21)排列数据

df.sort_values(ascending = False)

(22) Boolean indexing

我们提取“size”这一列等于5的值

df[df["size"] == 5]

(23) Selecting values

选择“size”这一列的第一行

df.loc([0], [‘size'])

金融科技应用研究院(Fintech Application Lab)11月份即将开始的量化风险管理训练营第三期基础班和就业班倒计时不到30天,大家抓紧时间踊跃参与!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181008A0CTYB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券