首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

import numpy as np import pandas as pd 1. Query 我们有时需要根据条件筛选数据,一个简单方法是query函数。...如果将整数值传递给random_state,则每次运行代码时都将生成相同采样数据。 5. Where where函数用于指定条件数据替换。如果指定条件,则默认替换值为 NaN。...df['new_col'].where(df['new_col'] > 0, 0) ? where函数首先根据指定条件定位目标数据,然后替换为指定新数据。...Select_dtypes Select_dtypes函数根据对数据类型设置条件返回dataframe子集。它允许使用include和exlude参数包含或排除某些数据类型。...例如,如果我们想将每个元素乘以一个数字,我们不需要也不应该使用applymap函数。在这种情况下,简单矢量化操作(例如df*4)要快得多。 然而,在某些情况下,我们可能无法选择矢量化操作。

5.5K30

高效10个Pandas函数,你都用过吗?

Query Query是pandas过滤查询函数使用布尔表达式来查询DataFrame,就是说按照规则进行过滤操作。...Insert Insert用于在DataFrame指定位置中插入新数据。默认情况下是添加到末尾,但可以更改位置参数,将新添加到任何位置。...,则 loc=0 column: 给插入取名, column='新' value:新值,数字、array、series等都可以 allow_duplicates: 是否允许列名重复,选择...Where Where用来根据条件替换行或值。如果满足条件,保持原来值,不满足条件则替换为其他值。默认替换为NaN,也可以指定特殊值。...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:按标签(column和index)选择行和 iloc:按索引位置选择行和 选择df第1~3行、第1~2数据

4.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护航

() Where() 用于从一个数组中返回满足特定条件元素。...Pandas 适用于以下各类数据: 具有异构类型表格数据, SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 时间序列数据; 带有行/标签任意矩阵数据(同构类型或者是异构类型...: 对象可以显式对齐至一组标签内,或者用户可以简单选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯一个错误是,在不需要.csv 文件情况下仍会完整地读取它。...Isin () 有助于选择特定中具有特定(或多个)值行。

7.5K30

12 种高效 Numpy 和 Pandas 函数为你加速分析

() Where() 用于从一个数组中返回满足特定条件元素。...Pandas 适用于以下各类数据: 具有异构类型表格数据, SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 时间序列数据; 带有行/标签任意矩阵数据(同构类型或者是异构类型...: 对象可以显式对齐至一组标签内,或者用户可以简单选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯一个错误是,在不需要.csv 文件情况下仍会完整地读取它。...Isin () 有助于选择特定中具有特定(或多个)值行。

6.2K10

NumPy、Pandas中若干高效函数

() Where() 用于从一个数组中返回满足特定条件元素。...Pandas 适用于以下各类数据: 具有异构类型表格数据,SQL表或Excel表; 有序和无序 (不一定是固定频率) 时间序列数据; 带有行/标签任意矩阵数据(同构类型或者是异构类型); 其他任意形式统计数据集...: 对象可以显式对齐至一组标签内,或者用户可以简单选择忽略标签,使Series、 DataFrame等自动对齐数据; 灵活分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换; 简化将数据转换为...read_csv(nrows=n) 大多数人都会犯一个错误是,在不需要.csv文件情况下仍会完整地读取它。...Isin()有助于选择特定中具有特定(或多个)值行。

6.5K20

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护

() Where() 用于从一个数组中返回满足特定条件元素。...Pandas 适用于以下各类数据: 具有异构类型表格数据, SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 时间序列数据; 带有行/标签任意矩阵数据(同构类型或者是异构类型...: 对象可以显式对齐至一组标签内,或者用户可以简单选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯一个错误是,在不需要.csv 文件情况下仍会完整地读取它。...Isin () 有助于选择特定中具有特定(或多个)值行。

6.7K20

Python pandas对excel操作实现示例

最近经常看到各平台里都有Python广告,都是对excel操作,这里明哥收集整理了一pandas对excel操作方法和使用过程。...如果列名 (column name)没有空格,则列有两种方式表达: df1['city'] df1.city 如果列名有空格,或者创建新(即该不存在,需要创建,第一次使用变量),则只能用第一种表达式...在 Excel 中实现用是 IF 函数,但在 pandas 中需要用到 numpy where 函数: df1['category'] = np.where(df1['total'] 200000...inner join,匹配数据不会显示 VLookup 函数根据位置来匹配,merge() 方法根据列名来匹配。...而在 pandas 进行分类汇总,可以使用 DataFrame groupby() 函数,然后再对 groupby() 生成 pandas.core.groupby.DataFrameGroupBy

4.4K20

30 个小例子帮你快速掌握Pandas

选择特定 3.读取DataFrame一部分行 read_csv函数允许按行读取DataFrame一部分。有两种选择。第一个是读取前n行。...df.isna().sum().sum() --- 0 9.根据条件选择行 在某些情况下,我们需要适合某些条件观察值(即行)。例如,下面的代码将选择居住在法国并且已经流失客户。...Balance hist 11.用isin描述条件 条件可能有几个值。在这种情况下,最好使用isin方法,而不是单独写入值。 我们只传递期望值列表。...第一个参数是位置索引,第二个参数是名称,第三个参数是值。 19.where函数 它用于根据条件替换行或值。默认替换值是NaN,但我们也可以指定要替换值。...符合指定条件值将保持不变,而其他值将替换为指定值。 20.排名函数 它为这些值分配一个等级。让我们创建一个根据客户余额对客户进行排名

10.6K10

Pandas图鉴(三):DataFrames

下一个选择是用NumPy向量dict或二维NumPy数组构造一个DataFrame: 请注意第二种情况下,人口值是如何被转换为浮点数。实际上,这发生在构建NumPy数组早期。...如果你 "即时" 添加流媒体数据,则你最好选择使用字典或列表,因为 Python 在列表末尾透明预分配了空间,所以追加速度很快。...现在,如果要合并已经在右边DataFrame索引中,请使用join(或者用right_index=True进行合并,这完全是同样事情): join()在默认情况下做左外连接 这一次,Pandas...就像原来join一样,on与第一个DataFrame有关,而其他DataFrame根据它们索引来连接。 插入和删除 由于DataFrame是一个集合,对行操作比对操作更容易。...默认情况下Pandas会对任何可远程求和东西进行求和,所以必须缩小你选择范围,如下图: 注意,当对单列求和时,会得到一个Series而不是一个DataFrame

35020

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

逗号前面的分号表示选择所有行,逗号后面的 ::-1 表示反转列,这样一来,country 就跑到最右边去了。 6. 按数据类型选择 首先,查看一 drinks 数据类型: ?...pandas 自动把第一当设置成索引了。 ? 注意:因为不能复用、重现,推荐在正式代码里使用 read_clipboard() 函数。 12....注意:如果索引值有重复、唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)。 ?...要查看每列有多少缺失值,可以使用 isna() 方法,然后使用 sum()函数。 ?...下面看一 stocks。 ? 创建样式字符字典,指定每使用格式。 ? 把这个字典传递给 DataFrame style.format() 方法。 ?

7.1K20

如何用 Python 执行常见 Excel 和 SQL 任务

有关数据结构,列表和词典,如何在 Python 中运行更多信息,本教程将有所帮助。...在 SQL 中,这是通过混合使用 SELECT 和不同其他函数实现,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同方法或查询快速过滤。...然而,通过更深入了解所有基础运算符,你可以用各种条件轻松地处理数据。 让我们继续工作,并在过滤选择以「S」开头且有大于 50,000 人均 GDP 国家。 ? ?...用计算机来处理数据 没有可以帮助计算不同结果方法,那么 Excel 会变成什么? 在这种情况下Pandas 大量依赖于 numpy 库和通用 Python 语法将计算放在一起。...这应该让你了解 Python 中数据可视化强大功能。如果你感到不知所措,你可以使用一些解决方案,Plot.ly,这可能更直观掌握。

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

有关数据结构,列表和词典,如何在 Python 中运行更多信息,本篇将有所帮助。...在 SQL 中,这是通过混合使用 SELECT 和不同其他函数实现,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同方法或查询快速过滤。...然而,通过更深入了解所有基础运算符,你可以用各种条件轻松地处理数据。 让我们继续工作,并在过滤选择以「S」开头且有大于 50,000 人均 GDP 国家。 ? ?...08 用计算机来处理数据 没有可以帮助计算不同结果方法,那么 Excel 会变成什么? 在这种情况下Pandas 大量依赖于 numpy 库和通用 Python 语法将计算放在一起。...这应该让你了解 Python 中数据可视化强大功能。如果你感到不知所措,你可以使用一些解决方案,Plot.ly,这可能更直观掌握。

8.2K20

python数据分析笔记——数据加载与整理

5、文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示,默认情况下pandas会用一组经常出现标记值进行识别,NA、NULL等。查找出结果以NAN显示。...(2)对于pandas对象(Series和DataFrame),可以pandasconcat函数进行合并。...·4、合并重叠数据 对于索引全部或部分重叠两个数据集,我们可以使用numpywhere函数来进行合并,where函数相当于if—else函数。...也可以使用字典形式来进行替换。 (2)离散化或面元划分,即根据某一条件将数据进行分组。 利用pd.cut()方式对一组年龄进行分组。 默认情况下,cut对分组条件左边是开着状态,右边是闭合状态。...利用drop_duplicates方法,可以返回一个移除了重复行DataFrame. 默认情况下,此方法是对所有的进行重复项清理操作,也可以用来指定特定或多进行。

6K80

数据分析之Pandas VS SQL!

SQL VS Pandas SELECT(数据选择) 在SQL中,选择使用逗号分隔列表(或*来选择所有): ? 在Pandas中,选择不但可根据列名称选取,还可以根据所在位置选取。...及label,快速定位DataFrame元素; iat,与at类似,不同根据position来定位; ?...WHERE(数据过滤) 在SQL中,过滤是通过WHERE子句完成: ? 在pandas中,Dataframe可以通过多种方式进行过滤,最直观使用布尔索引: ?...Pandas 中 inplace 参数在很多函数中都会有,它作用是:是否在原对象基础上进行修改,默认为False,返回一个新Dataframe;若为True,创建新对象,直接对原始对象进行修改。...默认情况下,join()将联接其索引上DataFrames。 每个方法都有参数,允许指定要执行连接类型(LEFT, RIGHT, INNER, FULL)或要连接(列名或索引) ?

3.1K20

Pandas 25 式

逗号前面的分号表示选择所有行,逗号后面的 ::-1 表示反转列,这样一来,country 就跑到最右边去了。 6. 按数据类型选择 首先,查看一 drinks 数据类型: ?...pandas 自动把第一当设置成索引了。 ? 注意:因为不能复用、重现,推荐在正式代码里使用 read_clipboard() 函数。 12....注意:如果索引值有重复、唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)。 ?...要查看每列有多少缺失值,可以使用 isna() 方法,然后使用 sum()函数。 ?...下面看一 stocks。 ? 创建样式字符字典,指定每使用格式。 ? 把这个字典传递给 DataFrame style.format() 方法。 ?

8.4K00

pandas 入门 1 :数据集创建和绘制

#导入本教程所需所有库#导入库中特定函数一般语法: ## from(library)import(特定库函数) from pandas import DataFrame , read_csv import...我们基本上完成了数据集创建。现在将使用pandas库将此数据集导出到csv文件中。 df将是一个 DataFrame对象。...函数to_csv将用于导出文件。除非另有指明,否则文件将保存在运行环境相同位置。 df.to_csv? 我们将使用唯一参数是索引和标头。将这些参数设置为False将阻止导出索引和标头名称。...与该表一起,最终用户清楚了解Mel是数据集中最受欢迎婴儿名称。plot()是一个方便属性,pandas可以让您轻松在数据框中绘制数据。我们学习了如何在上一节中找到Births最大值。...['Births'].max()] 等于选择NamesWHERE [Births等于973]中所有记录 另一种方法可能是使用Sorted dataframe: Sorted ['Names'].

6.1K10

Python 数据分析(PYDA)第三版(二)

虽然 NumPy 本身并不提供建模或科学功能,但了解 NumPy 数组和面向数组计算将帮助您更有效使用具有数组计算语义工具, pandas。...在这种情况下,花式索引行为与一些用户可能期望有些不同(包括我自己),即通过选择矩阵行和子集形成矩形区域。...表 5.4:DataFrame 索引选项 类型 注释 df[column] 从 DataFrame选择单个序列;特殊情况便利:布尔数组(过滤行)、切片(切片行)或布尔 DataFrame根据某些条件设置值...还有其他情况下pandas 会生成SettingWithCopyWarning,这与链接索引有关。我建议您查阅在线 pandas 文档中这个主题。...在这种情况下,我们意思是匹配 DataFrame 行索引(axis="index")并在之间广播。

20100
领券