首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

import numpy as np import pandas as pd 1. Query 我们有时需要根据条件筛选数据,一个简单方法是query函数。...如果将整数值传递给random_state,则每次运行代码时都将生成相同的采样数据。 5. Where where函数用于指定条件的数据替换。如果不指定条件,则默认替换值为 NaN。...df['new_col'].where(df['new_col'] > 0, 0) ? where函数首先根据指定条件定位目标数据,然后替换为指定的新数据。...Select_dtypes Select_dtypes函数根据对数据类型设置的条件返回dataframe的子集。它允许使用include和exlude参数包含或排除某些数据类型。...例如,如果我们想将每个元素乘以一个数字,我们不需要也不应该使用applymap函数。在这种情况下,简单的矢量化操作(例如df*4)要快得多。 然而,在某些情况下,我们可能无法选择矢量化操作。

5.7K30

高效的10个Pandas函数,你都用过吗?

Query Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。...Insert Insert用于在DataFrame的指定位置中插入新的数据列。默认情况下新列是添加到末尾的,但可以更改位置参数,将新列添加到任何位置。...,则 loc=0 column: 给插入的列取名,如 column='新的一列' value:新列的值,数字、array、series等都可以 allow_duplicates: 是否允许列名重复,选择...Where Where用来根据条件替换行或列中的值。如果满足条件,保持原来的值,不满足条件则替换为其他值。默认替换为NaN,也可以指定特殊值。...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:按标签(column和index)选择行和列 iloc:按索引位置选择行和列 选择df第1~3行、第1~2列的数据

4.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    加速数据分析,这12种高效Numpy和Pandas函数为你保驾护航

    () Where() 用于从一个数组中返回满足特定条件的元素。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如 SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型...: 对象可以显式地对齐至一组标签内,或者用户可以简单地选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活的分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯的一个错误是,在不需要.csv 文件的情况下仍会完整地读取它。...Isin () 有助于选择特定列中具有特定(或多个)值的行。

    7.5K30

    NumPy、Pandas中若干高效函数!

    () Where() 用于从一个数组中返回满足特定条件的元素。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如SQL表或Excel表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型); 其他任意形式的统计数据集...: 对象可以显式地对齐至一组标签内,或者用户可以简单地选择忽略标签,使Series、 DataFrame等自动对齐数据; 灵活的分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换; 简化将数据转换为...read_csv(nrows=n) 大多数人都会犯的一个错误是,在不需要.csv文件的情况下仍会完整地读取它。...Isin()有助于选择特定列中具有特定(或多个)值的行。

    6.6K20

    12 种高效 Numpy 和 Pandas 函数为你加速分析

    () Where() 用于从一个数组中返回满足特定条件的元素。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如 SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型...: 对象可以显式地对齐至一组标签内,或者用户可以简单地选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活的分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯的一个错误是,在不需要.csv 文件的情况下仍会完整地读取它。...Isin () 有助于选择特定列中具有特定(或多个)值的行。

    6.3K10

    加速数据分析,这12种高效Numpy和Pandas函数为你保驾护

    () Where() 用于从一个数组中返回满足特定条件的元素。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如 SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型...: 对象可以显式地对齐至一组标签内,或者用户可以简单地选择忽略标签,使 Series、 DataFrame 等自动对齐数据; 灵活的分组功能,对数据集执行拆分-应用-合并等操作,对数据进行聚合和转换;...read_csv(nrows=n) 大多数人都会犯的一个错误是,在不需要.csv 文件的情况下仍会完整地读取它。...Isin () 有助于选择特定列中具有特定(或多个)值的行。

    6.7K20

    30 个小例子帮你快速掌握Pandas

    选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...df.isna().sum().sum() --- 0 9.根据条件选择行 在某些情况下,我们需要适合某些条件的观察值(即行)。例如,下面的代码将选择居住在法国并且已经流失的客户。...Balance hist 11.用isin描述条件 条件可能有几个值。在这种情况下,最好使用isin方法,而不是单独写入值。 我们只传递期望值的列表。...第一个参数是位置的索引,第二个参数是列的名称,第三个参数是值。 19.where函数 它用于根据条件替换行或列中的值。默认替换值是NaN,但我们也可以指定要替换的值。...符合指定条件的值将保持不变,而其他值将替换为指定值。 20.排名函数 它为这些值分配一个等级。让我们创建一个根据客户余额对客户进行排名的列。

    10.8K10

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    逗号前面的分号表示选择所有行,逗号后面的 ::-1 表示反转列,这样一来,country 列就跑到最右边去了。 6. 按数据类型选择列 首先,查看一下 drinks 的数据类型: ?...pandas 自动把第一列当设置成索引了。 ? 注意:因为不能复用、重现,不推荐在正式代码里使用 read_clipboard() 函数。 12....注意:如果索引值有重复、不唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)列。 ?...要查看每列有多少缺失值,可以使用 isna() 方法,然后使用 sum()函数。 ?...下面看一下 stocks。 ? 创建样式字符字典,指定每列使用的格式。 ? 把这个字典传递给 DataFrame 的 style.format() 方法。 ?

    7.2K20

    Pandas图鉴(三):DataFrames

    下一个选择是用NumPy向量的dict或二维NumPy数组构造一个DataFrame: 请注意第二种情况下,人口值是如何被转换为浮点数的。实际上,这发生在构建NumPy数组的早期。...如果你 "即时" 添加流媒体数据,则你最好的选择是使用字典或列表,因为 Python 在列表的末尾透明地预分配了空间,所以追加的速度很快。...现在,如果要合并的列已经在右边DataFrame的索引中,请使用join(或者用right_index=True进行合并,这完全是同样的事情): join()在默认情况下做左外连接 这一次,Pandas...就像原来的join一样,on列与第一个DataFrame有关,而其他DataFrame是根据它们的索引来连接的。 插入和删除 由于DataFrame是一个列的集合,对行的操作比对列的操作更容易。...默认情况下,Pandas会对任何可远程求和的东西进行求和,所以必须缩小你的选择范围,如下图: 注意,当对单列求和时,会得到一个Series而不是一个DataFrame。

    44420

    如何用 Python 执行常见的 Excel 和 SQL 任务

    有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本教程将有所帮助。...在 SQL 中,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同的方法或查询快速过滤。...然而,通过更深入地了解所有基础运算符,你可以用各种条件轻松地处理的数据。 让我们继续工作,并在过滤选择以「S」开头且有大于 50,000 人均 GDP 的国家。 ? ?...用计算机来处理数据 没有可以帮助计算不同的结果的方法,那么 Excel 会变成什么? 在这种情况下,Pandas 大量依赖于 numpy 库和通用 Python 语法将计算放在一起。...这应该让你了解 Python 中数据可视化的强大功能。如果你感到不知所措,你可以使用一些解决方案,如Plot.ly,这可能更直观地掌握。

    10.8K60

    用Python执行SQL、Excel常见任务?10个方法全搞定!

    有关数据结构,如列表和词典,如何在 Python 中的运行的更多信息,本篇将有所帮助。...在 SQL 中,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel 中,可以通过拖放数据和执行过滤器来实现。 你可以使用 Pandas 库不同的方法或查询快速过滤。...然而,通过更深入地了解所有基础运算符,你可以用各种条件轻松地处理的数据。 让我们继续工作,并在过滤选择以「S」开头且有大于 50,000 人均 GDP 的国家。 ? ?...08 用计算机来处理数据 没有可以帮助计算不同的结果的方法,那么 Excel 会变成什么? 在这种情况下,Pandas 大量依赖于 numpy 库和通用 Python 语法将计算放在一起。...这应该让你了解 Python 中数据可视化的强大功能。如果你感到不知所措,你可以使用一些解决方案,如Plot.ly,这可能更直观地掌握。

    8.3K20

    python数据分析笔记——数据加载与整理

    5、文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas会用一组经常出现的标记值进行识别,如NA、NULL等。查找出结果以NAN显示。...(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。...·4、合并重叠数据 对于索引全部或部分重叠的两个数据集,我们可以使用numpy的where函数来进行合并,where函数相当于if—else函数。...也可以使用字典的形式来进行替换。 (2)离散化或面元划分,即根据某一条件将数据进行分组。 利用pd.cut()方式对一组年龄进行分组。 默认情况下,cut对分组条件的左边是开着的状态,右边是闭合状态。...利用drop_duplicates方法,可以返回一个移除了重复行的DataFrame. 默认情况下,此方法是对所有的列进行重复项清理操作,也可以用来指定特定的一列或多列进行。

    6.1K80

    数据分析之Pandas VS SQL!

    SQL VS Pandas SELECT(数据选择) 在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列): ? 在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。...及列label,快速定位DataFrame的元素; iat,与at类似,不同的是根据position来定位的; ?...WHERE(数据过滤) 在SQL中,过滤是通过WHERE子句完成的: ? 在pandas中,Dataframe可以通过多种方式进行过滤,最直观的是使用布尔索引: ?...Pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改,默认为False,返回一个新的Dataframe;若为True,不创建新的对象,直接对原始对象进行修改。...默认情况下,join()将联接其索引上的DataFrames。 每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引) ?

    3.2K20

    Pandas 25 式

    逗号前面的分号表示选择所有行,逗号后面的 ::-1 表示反转列,这样一来,country 列就跑到最右边去了。 6. 按数据类型选择列 首先,查看一下 drinks 的数据类型: ?...pandas 自动把第一列当设置成索引了。 ? 注意:因为不能复用、重现,不推荐在正式代码里使用 read_clipboard() 函数。 12....注意:如果索引值有重复、不唯一,这种方式会失效。 13. 根据多个类别筛选 DataFrame 预览 movies。 ? 查看 genre(电影类型)列。 ?...要查看每列有多少缺失值,可以使用 isna() 方法,然后使用 sum()函数。 ?...下面看一下 stocks。 ? 创建样式字符字典,指定每列使用的格式。 ? 把这个字典传递给 DataFrame 的 style.format() 方法。 ?

    8.4K00

    pandas 入门 1 :数据集的创建和绘制

    #导入本教程所需的所有库#导入库中特定函数的一般语法: ## from(library)import(特定库函数) from pandas import DataFrame , read_csv import...我们基本上完成了数据集的创建。现在将使用pandas库将此数据集导出到csv文件中。 df将是一个 DataFrame对象。...函数to_csv将用于导出文件。除非另有指明,否则文件将保存在运行环境下的相同位置。 df.to_csv? 我们将使用的唯一参数是索引和标头。将这些参数设置为False将阻止导出索引和标头名称。...与该表一起,最终用户清楚地了解Mel是数据集中最受欢迎的婴儿名称。plot()是一个方便的属性,pandas可以让您轻松地在数据框中绘制数据。我们学习了如何在上一节中找到Births列的最大值。...['Births'].max()] 等于选择Names列WHERE [Births列等于973]中的所有记录 另一种方法可能是使用Sorted dataframe: Sorted ['Names'].

    6.1K10

    Python 数据分析(PYDA)第三版(二)

    虽然 NumPy 本身并不提供建模或科学功能,但了解 NumPy 数组和面向数组的计算将帮助您更有效地使用具有数组计算语义的工具,如 pandas。...在这种情况下,花式索引的行为与一些用户可能期望的有些不同(包括我自己),即通过选择矩阵的行和列的子集形成的矩形区域。...表 5.4:DataFrame 的索引选项 类型 注释 df[column] 从 DataFrame 中选择单个列或列序列;特殊情况便利:布尔数组(过滤行)、切片(切片行)或布尔 DataFrame(根据某些条件设置值...还有其他情况下,pandas 会生成SettingWithCopyWarning,这与链接索引有关。我建议您查阅在线 pandas 文档中的这个主题。...在这种情况下,我们的意思是匹配 DataFrame 的行索引(axis="index")并在列之间广播。

    29400
    领券