这篇文章清清楚楚地罗列了23个可以帮助你更好的了解数据的Pandas Code
(1)读取CSV格式的数据
pd.DataFrame.from_csv(“csv_file”)
OR
pd.read_csv(“csv_file”)
(2)读取Excel格式的数据
pd.read_excel("excel_file")
(3)把data frame转换成csv格式
Comma separated and without the indices
df.to_csv("data.csv", sep=",", index=False)
(4)数据集的基础信息
df.info()
(5)数据集的基础统计情况
print(df.describe())
(6)把data frame格式展示成为表格
print(tabulate(print_table, headers=headers))
“print_table”是lists中的一个list,“headers”是string headers的一个list
(7)查看列名
df.columns
基础数据处理
(8)删除缺失数据
df.dropna(axis=0, how=‘any')
(9)替换缺失数据
df.replace(to_replace=None, value=None)
替换“to_replace”为“value”
(10)检查NANs
pd.isnull(object).sum()
检查缺失数据(数字数组中的NaN,对象数组中的NaN)
(11)删除一个变量
df.drop('feature_variable_name', axis=1)
坐标轴值是表示行,坐标轴值是1表示列
(12)把数据类型转换成float
pd.to_numeric(df["feature_name"], errors='coerce')
把格式转换成numeric以便于方便计算(如果是string格式的会不方便计算)
(13)把data frame转化为numpy array
df.as_matrix()
(14)查看前“n”排的数据
df.head(n)
(15)根据特征名字提取数据
df.loc[feature_name]
Operating on data frames
(16)这个code会把“height”这一列的所有数值都乘2
df["height"].apply(lambdaheight: 2 * height)
OR
def multiply(x):
return x * 2
df[“height"].apply(multiply)
(17)这个code会重命名data frame的一个column为“size”
df.rename(columns = , inplace=True)
(18)提取一列里的“name”
Here we will get the unique entries of the column “name”
df[“name"].unique()
(19)提取sub-data frames
这里我们从data frame里选取“name”和“size”这两列
new_df = df[["name", "size"]]
(20) Summary information about your data
Summary数据信息
# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()
(21)排列数据
df.sort_values(ascending = False)
(22) Boolean indexing
我们提取“size”这一列等于5的值
df[df["size"] == 5]
(23) Selecting values
选择“size”这一列的第一行
df.loc([0], [‘size'])
金融科技应用研究院(Fintech Application Lab)11月份即将开始的量化风险管理训练营第三期基础班和就业班倒计时不到30天,大家抓紧时间踊跃参与!
领取专属 10元无门槛券
私享最新 技术干货