帮助数据科学家理解数据的23个pandas常用代码

编译:yxy

出品:ATYUN订阅号

基本的数据集信息

(1)读取CSV数据集

pd.DataFrame.from_csv(“csv_file”)

或者

pd.read_csv(“csv_file”)

(2)读取EXCEL数据集

pd.read_excel( “excel_file”)

(3)将数据帧直接写入CSV

逗号分隔,没有索引

df.to_csv(“data.csv”,sep=“,”,index= False)

(4)基本的数据集特征信息

df.info()

(5)基本的数据集统计

print(df.describe())

(6)在表中打印数据帧

print(tabulate(print_table,headers= headers))

其中“print_table”是列表的列表,“headers”是字符串头的列表

(7)列出列名

df.columns

基本的数据处理

(8)删除丢失的数据

df.dropna(axis= 0,how='any')

返回给定轴缺失的标签对象,并在那里删除所有缺失数据(’any’:如果存在任何NA值,则删除该行或列。)。

(9)替换丢失的数据

df.replace(to_replace= None,value= None)

将“to_replace”中的值替换为“value”。

(10)检查缺失值

pd.isnull(object)

检测缺失值(数值数组中的NaN,对象数组中的None/ NaN)

(11)删除特征

df.drop('feature_variable_name', axis=1)

axis中0对应行,1对应列。

(12)将对象类型转换为FLOAT

pd.to_numeric(df [“feature_name”],errors='coerce')

将对象类型转换为数值,以便能够执行计算(如果它们是字符串的话)。

(13)将数据帧转换为NUMPY数组

df.as_matrix()

(14)获得数据帧的前N行

df.head(n)

(15)按特征名称获取数据

df.loc [FEATURE_NAME]

数据帧操作

(16)将函数应用于数据帧

这个将数据帧的“height”列中的所有值乘以2

df["height"].apply(lambda height:2 * height)

def multiply(x):
    return x* 2
df["height"].apply(multiply)

(17)重命名列

我们将数据帧的第3列重命名为“size”

df.rename(columns= {df.columns [2]:'size'},inplace= True)

(18)获取列的唯一条目

在这里,我们将获得“名称”列的唯一条目

df["name"].unique()

(19)访问子数据帧

在这里,我们抓取列的选择,数据帧中的“name”和“size”

new_df= df [[“name”,“size”]]

(20)数据的摘要信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

(21)对数据进行排序

df.sort_values(ascending= False)

(22)布尔索引

在这里,我们将过滤名为“size”的数据列,仅显示值等于5的

df [df [“size”]== 5]

(23)选择值

选择“size”列的第一行

view source

df.loc([0],['size'])

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏HansBug's Lab

算法模板——线段树4(区间加+区间乘+区间覆盖值+区间求和)

实现功能——1:区间加法 2:区间乘法 3:区间覆盖值 4:区间求和 这是个四种常见线段树功能的集合版哦。。。么么哒(其实只要协调好三种tag的关系并不算太难—...

2623
来自专栏PPV课数据科学社区

Pandas速查卡-Python数据科学

Josh Devlin 2017年2月21日 Pandas可以说是数据科学最重要的Python包。 它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经...

3887
来自专栏数据结构与算法

07:清泉-改(prime+堆)

时间限制: 10000ms单个测试点时间限制: 1000ms内存限制: 512000kB描述 华北电力大学可以抽象为一张有n个点m条边的无向图. 现在所有的边都...

28110
来自专栏算法channel

Tensorflow|Tensor, 与Numpy比较,Constant

本教程参考stanford.edu-cs20si 01 Operations分类预览 ? 02 Tensor 1 0-d tensor, or "scala...

4077
来自专栏云时之间

小白笔记——R语言(1)

最近一段时间的R语言学习笔记,以便于自己学习之用,特记录在博客中,感兴趣的人还可以看看。记录的东西也不一定正确,请大家指教,里面可能会引用到一些别人的资料等,作...

3359
来自专栏数据结构与算法

11:大整数减法

11:大整数减法 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 求两个大的正整数相减的差。 输入共2行,第1行是被减...

28410
来自专栏wOw的Android小站

[Tensorflow] 在Android运行TensorFlow模型

以下代码来自于TensorFlowObjectDetectionAPIModel.java

5451
来自专栏深度学习之tensorflow实战篇

tensorflow(一)windows 10 64位安装tensorflow1.4与基本概念解读tf.global_variables_initializer

一.安装 目前用了tensorflow、deeplearning4j两个深度学习框架, tensorflow 之前一直支持到python 3.5,目前以更新...

3676
来自专栏逆向技术

逆向知识十三讲,汇编中数组的表现形式,以及还原数组

            逆向知识十三讲,汇编中数组的表现形式,以及还原数组 讲解数组之前,要了解数组的特性 1.数据具有连续性 2.数据类型相同 比如:   i...

2047
来自专栏landv

pudn下载地址的规律

2013

扫码关注云+社区