帮助数据科学家理解数据的23个pandas常用代码

编译:yxy

出品:ATYUN订阅号

基本的数据集信息

(1)读取CSV数据集

pd.DataFrame.from_csv(“csv_file”)

或者

pd.read_csv(“csv_file”)

(2)读取EXCEL数据集

pd.read_excel( “excel_file”)

(3)将数据帧直接写入CSV

逗号分隔,没有索引

df.to_csv(“data.csv”,sep=“,”,index= False)

(4)基本的数据集特征信息

df.info()

(5)基本的数据集统计

print(df.describe())

(6)在表中打印数据帧

print(tabulate(print_table,headers= headers))

其中“print_table”是列表的列表,“headers”是字符串头的列表

(7)列出列名

df.columns

基本的数据处理

(8)删除丢失的数据

df.dropna(axis= 0,how='any')

返回给定轴缺失的标签对象,并在那里删除所有缺失数据(’any’:如果存在任何NA值,则删除该行或列。)。

(9)替换丢失的数据

df.replace(to_replace= None,value= None)

将“to_replace”中的值替换为“value”。

(10)检查缺失值

pd.isnull(object)

检测缺失值(数值数组中的NaN,对象数组中的None/ NaN)

(11)删除特征

df.drop('feature_variable_name', axis=1)

axis中0对应行,1对应列。

(12)将对象类型转换为FLOAT

pd.to_numeric(df [“feature_name”],errors='coerce')

将对象类型转换为数值,以便能够执行计算(如果它们是字符串的话)。

(13)将数据帧转换为NUMPY数组

df.as_matrix()

(14)获得数据帧的前N行

df.head(n)

(15)按特征名称获取数据

df.loc [FEATURE_NAME]

数据帧操作

(16)将函数应用于数据帧

这个将数据帧的“height”列中的所有值乘以2

df["height"].apply(lambda height:2 * height)

def multiply(x):
    return x* 2
df["height"].apply(multiply)

(17)重命名列

我们将数据帧的第3列重命名为“size”

df.rename(columns= {df.columns [2]:'size'},inplace= True)

(18)获取列的唯一条目

在这里,我们将获得“名称”列的唯一条目

df["name"].unique()

(19)访问子数据帧

在这里,我们抓取列的选择,数据帧中的“name”和“size”

new_df= df [[“name”,“size”]]

(20)数据的摘要信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

(21)对数据进行排序

df.sort_values(ascending= False)

(22)布尔索引

在这里,我们将过滤名为“size”的数据列,仅显示值等于5的

df [df [“size”]== 5]

(23)选择值

选择“size”列的第一行

view source

df.loc([0],['size'])

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云时之间

小白笔记——R语言(1)

最近一段时间的R语言学习笔记,以便于自己学习之用,特记录在博客中,感兴趣的人还可以看看。记录的东西也不一定正确,请大家指教,里面可能会引用到一些别人的资料等,作...

35290
来自专栏PPV课数据科学社区

Pandas速查卡-Python数据科学

Josh Devlin 2017年2月21日 Pandas可以说是数据科学最重要的Python包。 它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经...

41580
来自专栏ACM算法日常

Max Sum(优化)- HDU 1003

Given a sequence a[1],a[2],a[3]......a[n], your job is to calculate the max sum ...

8730
来自专栏zhisheng

#每日一题#4

4、已知广义表LS=((a,b,c),(d,e,f)),运用head和tail函数取出LS中原子e的运算是() A、head(tail(LS)) B、tail(...

35360
来自专栏落影的专栏

Metal入门教程总结

本文介绍Metal和Metal Shader Language,以及Metal和OpenGL ES的差异性,也是实现入门教程的心得总结。

1.2K60
来自专栏HTML5学堂

Javascript中的Label语句

HTML5学堂:在JavaScript中,我们可能很少会去用到 Label 语句,但是熟练的应用 Label 语句,尤其是在嵌套循环中熟练应用 break, c...

42870
来自专栏机器学习之旅

tf.nn.embedding_lookup记录

我觉得这张图就够了,实际上tf.nn.embedding_lookup的作用就是找到要寻找的embedding data中的对应的行下的vector。

15220
来自专栏数据结构与算法

07:清泉-改(prime+堆)

时间限制: 10000ms单个测试点时间限制: 1000ms内存限制: 512000kB描述 华北电力大学可以抽象为一张有n个点m条边的无向图. 现在所有的边都...

284100
来自专栏wOw的Android小站

[Tensorflow] 在Android运行TensorFlow模型

以下代码来自于TensorFlowObjectDetectionAPIModel.java

73210
来自专栏HansBug's Lab

算法模板——线段树4(区间加+区间乘+区间覆盖值+区间求和)

实现功能——1:区间加法 2:区间乘法 3:区间覆盖值 4:区间求和 这是个四种常见线段树功能的集合版哦。。。么么哒(其实只要协调好三种tag的关系并不算太难—...

28730

扫码关注云+社区

领取腾讯云代金券