文章/答案/技术大牛

发布

社区首页 >专栏 >快速介绍Python数据分析库pandas的基础知识和代码示例

快速介绍Python数据分析库pandas的基础知识和代码示例

deephub

发布于 2020-07-29 02:41:28

8.1K00

代码可运行

文章被收录于专栏：DeepHub IMBADeepHub IMBA

运行总次数：0

代码可运行

“软件工程师阅读教科书作为参考时不会记住所有的东西，但是要知道如何快速查找重·要的知识点。”

为了能够快速查找和使用功能，使我们在进行机器学习模型时能够达到一定流程化。我创建了这个pandas函数的备忘单。这不是一个全面的列表，但包含了我在构建机器学习模型中最常用的函数。让我们开始吧!

本附注的结构:

导入数据
导出数据
创建测试对象
查看/检查数据
选择查询
数据清理
筛选、排序和分组
统计数据

首先，我们需要导入pandas开始:

 import pandas as pd

导入数据

使用函数pd.read_csv直接将CSV转换为数据格式。

注意:还有另一个类似的函数pd。read_excel用于excel文件。

 # Load data
 df = pd.read_csv('filename.csv') # From a CSV file
 df = pd.read_excel('filename.xlsx') # From an Excel file

导出数据

to_csv()将数据存储到本地的文件。我们可以通过df[:10].to_csv()保存前10行。我们还可以使用df.to_excel()保存和写入一个DataFrame到Excel文件或Excel文件中的一个特定表格。

 df.to_csv('filename.csv') # Write to a CSV file
 df.to_excel('filename.xlsx') # Write to an Excel file

创建测试对象

从输入的数据建立一个DataFrame

 # Build data frame from inputted data
 df = pd.DataFrame(data = {'Name': ['Bob', 'Sally', 'Scott', 'Katie'],
  'Physics': [68, 74, 77, 78],
  'Chemistry': [84, 100, 73, 90],
  'Algebra': [78, 88, 82, 87]})

或者从列表中创建一个series

 #  Create a series from an iterable my_list
 my_list = [['Bob',78],
           ['Sally',91],
           ['Scott',62],
           ['Katie',78],
           ['John',100]]
 df1 = pd.Series(my_list) # Create a series from an iterable my_list

查看/检查数据

head（）：显示DataFrame中的前n条记录。我经常把一个数据档案的最上面的记录打印在我的jupyter notebook上，这样当我忘记里面的内容时，我可以回头查阅。

 df.head(3) # First 3 rows of the DataFrame

tail（）:返回最后n行。这对于快速验证数据非常有用，特别是在排序或附加行之后。

 df.tail(3) # Last 3 rows of the DataFrame

添加或插入行

要向DataFrame追加或添加一行，我们将新行创建为Series并使用append()方法。

在本例中，将新行初始化为python字典，并使用append()方法将该行追加到DataFrame。

在向append()添加python字典类型时，请确保传递ignore_index=True，以便索引值不会被使用。生成的轴将被标记为编号series0,1，…， n-1，当连接的数据使用自动索引信息时，这很有用。

append() 方法的作用是:返回包含新添加行的DataFrame。

 #Append row to the dataframe, missing data (np.nan)
 new_row = {'Name':'Max', 'Physics':67, 'Chemistry':92, 'Algebra':np.nan}
 df = df.append(new_row, ignore_index=True)

向DataFrame添加多行

 # List of series  
 list_of_series = [pd.Series(['Liz', 83, 77, np.nan], index=df.columns),
                 pd.Series(['Sam', np.nan, 94,70], index=df.columns ),
                 pd.Series(['Mike', 79,87,90], index=df.columns),
                 pd.Series(['Scott', np.nan,87,np.nan], index=df.columns),]
 # Pass a list of series to the append() to add multiple rows
 df = df.append(list_of_series , ignore_index=True)

我们也可以添加新的列

 # Adding a new column to existing DataFrame in Pandas
 sex = ['Male','Female','Male','Female','Male','Female','Female','Male','Male']
 df['Sex'] = sex

info()函数用于按列获取标题、值的数量和数据类型等一般信息。一个类似但不太有用的函数是df.dtypes只给出列数据类型。

 df.info() #Index, Datatype and Memory information

 # Check data type in pandas dataframe
 df['Chemistry'].dtypes
 >>> dtype('int64')#  Convert Integers to Floats in Pandas DataFrame
 df['Chemistry'] = df['Chemistry'].astype(float)
 df['Chemistry'].dtypes
 >>> dtype('float64')# Number of rows and columns
 df.shape
 >>> (9, 5)

value_counts()函数的作用是:获取一系列包含唯一值的计数。

 # View unique values and counts of Physics column
 df['Physics'].value_counts(dropna=False)

选择

在训练机器学习模型时，我们需要将列中的值放入X和y变量中。

 df['Chemistry'] # Returns column with label 'Chemistry' as Series

 df[['Name','Algebra']] # Returns columns as a new DataFrame

 df.iloc[0] # Selection by position

df.iloc[:,1] # Second column 'Name' of data frame

df.iloc[0,1] # First element of Second column
>>> 68.0

数据清理

rename()函数在需要重命名某些选定列时非常有用，因为我们只需要指定要重命名的列的信息。

# Rename columns
df = df.rename({'Name':'Student','Algebra':'Math'}, axis='columns')

在DataFrame中，有时许多数据集只是带着缺失的数据的，或者因为它存在而没有被收集，或者它从未存在过。

NaN(非数字的首字母缩写)是一个特殊的浮点值，所有使用标准IEEE浮点表示的系统都可以识别它

pandas将NaN看作是可互换的，用于指示缺失值或空值。有几个有用的函数用于检测、删除和替换panda DataFrame中的空值。

# Checks for null Values, Returns Boolean Arrray
check_for_nan = df.isnull()

要检查panda DataFrame中的空值，我们使用isnull()或notnull()方法。方法返回布尔值的数据名，对于NaN值为真。在相反的位置，notnull()方法返回布尔值的数据，对于NaN值是假的。

value = df.notnull() # Opposite of df2.isnull()

我们使用dropna()函数删除所有缺少值的行。

drop_null_row = df.dropna() # Drop all rows that contain null values

有时，我们可能只是想删除缺失值的列。

# Drop all columns that contain null values
drop_null_col = df.dropna(axis=1)

我们可以使用fillna()来填充缺失的值。例如，我们可能想用0替换' NaN '。

replace_null = df.fillna(0) # Replace all null values with 0

或者用平均值替换NaN。

# Replace all null values with the mean (mean can be replaced with almost any function from the statistics module)
df = round(df.fillna(df.mean()),2)

方法可用于替换DataFrame中的值

one = df.replace(100,'A') # Replace all values equal to 1 with 'one'

筛选、排序和分组

找到看到物理成绩达到80或80以上的学生

fil_80 = df[df['Physics'] > 80]

学生在化学考试中得到80分或更高的分数，数学考试中却不到90分

fil = df[(df['Chemistry'] > 80) & (df['Math'] < 90)]

sort_values ()可以以特定的方式对pandas数据进行排序。通常回根据一个或多个列的值对panda DataFrame进行排序，或者根据panda DataFrame的行索引值或行名称进行排序。

例如，我们希望按学生的名字按升序排序。

ascending = df.sort_values('Student')

化学分数按降序排列

descending = df.sort_values('Chemistry',ascending=False)

更复杂一点的，我们希望按物理分数的升序排序，然后按化学分数的降序排序。

df.sort_values(['Physics','Chemistry'],ascending=[True,False])

groupby 是一个非常简单的概念。我们可以创建一组类别，并对类别应用一个函数。这是一个简单的概念，但却是我们经常使用的极有价值的技术。Groupby的概念很重要，因为它能够有效地聚合数据，无论是在性能上还是在代码数量上都非常出色。

通过性别进行分组

group_by = df.groupby(['Sex']) # Returns a groupby object for values from one column
group_by.first() # Print the first value in each group

计算性别分组的所有列的平均值

average = df.groupby(‘Sex’).agg(np.mean)

统计数据

我们可能熟悉Excel中的数据透视表，可以轻松地洞察数据。类似地，我们可以使用panda中可用的pivot_table()函数创建Python pivot表。该函数与group_by()函数非常相似，但是提供了更多的定制。

假设我们想按性别将值分组，并计算物理和化学列的平均值和标准差。我们将调用pivot_table()函数并设置以下参数:

index设置为 'Sex'，因为这是来自df的列，我们希望在每一行中出现一个唯一的值

values值为'Physics','Chemistry' ，因为这是我们想应用一些聚合操作的列

aggfunc设置为 'len','np.mean','np.std

pivot_table = df.pivot_table(index='Sex',
                             values=['Physics','Chemistry'],
                             aggfunc=[len, np.mean, np.std])

注意:使用len的时候需要假设数据中没有NaN值。

description()用于查看一些基本的统计细节，如数据名称或一系列数值的百分比、平均值、标准值等。

df.describe() # Summary statistics for numerical columns

使用max()查找每一行和每列的最大值

# Get a series containing maximum value of each row
max_row = df.max(axis=1)

# Get a series containing maximum value of each column without skipping NaN
max_col = df.max(skipna=False)

类似地，我们可以使用df.min()来查找每一行或每列的最小值。

其他有用的统计功能:

sum():返回所请求的轴的值的总和。默认情况下，axis是索引(axis=0)。

mean():返回平均值

median():返回每列的中位数

std():返回数值列的标准偏差。

corr():返回数据格式中的列之间的相关性。

count():返回每列中非空值的数量。

总结

我希望这张小抄能成为你的参考指南。当我发现更多有用的Pandas函数时，我将尝试不断地对其进行更新。本文的代码

https://github.com/Nothingaholic/Python-Cheat-Sheet/blob/master/pandas.ipynb

作者：XuanKhanh Nguyen

deephub翻译组

DeepHub

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-24，如有侵权请联系 cloudcommunity@tencent.com 删除

python

jquery

机器学习

神经网络

本文分享自 DeepHub IMBA 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

鹅厂写码13年，我总结的程序员高效阅读方法论

从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解

nat NAT 网关数据结构编程算法 python

3. 缺失数据的运算与分组 3.1. 加号与乘号规则 3.2. groupby方法中的缺失值 4. 填充与剔除 4.1. fillna方法 4.2. dropna方法 5. 插值

Datawhale

2020/07/06

1.7K0

python数据分析——数据分类汇总与统计

数据统计 python 数据分析函数

鲜于言悠

2025/03/08

1671

数据分析篇 | Pandas基础用法1

python numpy 编程算法数据结构

看本文之前先看看Panda是概览，大致了解一下：数据分析篇 | Pandas 概览

龙哥

2019/12/02

2.3K0

【Python环境】Python中的结构化数据分析利器-Pandas简介

其他

Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术

陆勤_数据人网

2018/02/27

15.1K0

Python基础（十一） | 超详细的Pandas库三万字总结

nan

而基于Numpy构建的Pandas库，提供了使得数据分析变得更快更简单的高级数据结构和操作工具

timerring

2022/10/28

4340

Pandas Learning

其他

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。本文介绍了Pandas的基础用法 Github: https://github.com/yingzk/pandas_learning 本

YingJoy_

2018/04/16

2.3K0

小白也能看懂的Pandas实操演示教程(下)

编程算法

今天主要带大家来实操学习下Pandas，因为篇幅原因，分为了两部分，本篇为下。上篇内容见：小白也能看懂的Pandas实操演示教程(上)。

1480

2019/09/25

2.5K0

Pandas数据处理与分析教程：从基础到实战

数据处理 pandas 基础教程数据

Pandas是一个开源的Python库，提供了高性能、易用和灵活的数据结构，用于数据处理和分析。它建立在NumPy之上，使得处理结构化数据更加简单和高效。Pandas的两个主要数据结构是Series和DataFrame，可以理解为NumPy数组的增强版。它们提供了更多的功能和灵活性，使得数据处理变得更加直观和方便。

全栈若城

2024/02/29

5500

python数据分析——数据分类汇总与统计

数据统计 python 数据分析函数

数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳，然后对这些数据进行统计分析，以便于更好地了解数据的特点和规律。

鲜于言悠

2024/03/20

8710

Python数据分析之Pandas（三）

编程算法 html ios

: | -----: | ------: | -----: | --------: | | 0 | 1 | 1193 | 5 | 978300760 | | 1 | 1 | 661 | 3 | 978302109 | | 2 | 1 | 914 | 3 | 978301968 | | 3 | 1 | 3408 | 4 | 978300275 | | 4 | 1 | 2355 | 5 | 978824291 |

yuanshuai

2022/08/22

1.5K0

pandas技巧6

linux 数据库 sql python

可根据⼀个或多个键将不同DataFrame中的⾏连接起来，它实现的就是数据库的join操作，就是数据库风格的合并

皮大大

2021/03/02

2.6K0

基于pandas数据预处理基础操作

pandas 基础

# -*- coding: utf-8 -*- import numpy as np import pandas as pd #一、创建数据 #1.通过传递一个list对象来创建一个Series，pandas会默认创建整型索引 s = pd.Series([1,3,np.nan,5,8]) #2.通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame dates = pd.date_range('20170301',periods = 6) df1 = pd.DataFram

hankleo

2020/09/17

7500

python数据分析入门笔记［1］

数据库 sql https 网络安全

(二)数据排序（用的是tips.csv的数据，数据来源：https://github.com/mwaskom/seaborn-data）

全栈程序员站长

2022/09/07

1K0

10 Minutes to pandas

numpy 文件存储 python 网络安全

最近在看pandas，之前一致用SQL做数据处理，对于线下的小数据量，的确是pandas功能简洁实用，而且方便可视化操作。翻译来自于pandas官方网站上《10 Minutes to pandas》，首先是引入所需的包

百川AI

2021/10/19

7360

Pandas 2.2 中文官方教程和指南（二十五·二）

教程框架数据索引 pandas

将一个以小时为列、天为行的矩阵转换为连续的行序列，形成时间序列。如何重新排列 Python pandas DataFrame？

ApacheCN_飞龙

2024/05/24

1770

Pandas常用的数据处理方法

其他

本文的Pandas知识点包括： 1、合并数据集 2、重塑和轴向旋转 3、数据转换 4、数据聚合 1、合并数据集 Pandas中合并数据集有多种方式，这里我们来逐一介绍 1.1 数据库风格合并数据库风格的合并指根据索引或某一列的值是否相等进行合并的方式，在pandas中，这种合并使用merge以及join函数实现。先来看下面的例子： df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)}) df2 = pd.Dat

石晓文

2018/04/11

8.4K0

Pandas速查卡-Python数据科学

python

Josh Devlin 2017年2月21日 Pandas可以说是数据科学最重要的Python包。它不仅提供了很多方法和函数，使得处理数据更容易；而且它已经优化了运行速度，与使用Python的内置函数进行数值数据处理相比，这是一个显著的优势。刚开始学习pandas时要记住所有常用的函数和方法显然是有困难的，所以在Dataquest（https://www.dataquest.io/）我们主张查找pandas参考资料（http://pandas.pydata.org/pandas-docs/stab

小莹莹

2018/04/23

9.2K0

Python数据分析实战之技巧总结

python

需求：pandas处理多列相减，实际某些元素本身为空值，如何碰到一个单元格元素为空就忽略了不计算，一般怎么解决！

DataCharm

2021/02/22

2.4K0

Python中 Pandas 50题冲关

python numpy

Pandas 是基于 NumPy 的一种数据处理工具，该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作，包括数据的索引、分组、统计和清洗。

程序员小猿

2021/01/19

4.2K0

Python数据分析之Pandas（数据操作）

python

Pandas 数据操作 import pandas as pd Series索引 ser_obj = pd.Series(range(5), index = ['a', 'b', 'c', 'd', 'e']) ser_obj.head() a 0 b 1 c 2 d 3 e 4 dtype: int32 行索引 # 行索引 ser_obj['a'] #等同描述ser_obj[0] 0 切片索引可以按照默认索引号，也可以按照实际索引值 # 切片索引（按索引号） ser_obj[

AI异构

2020/07/29

9970