首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

Pct_change 此函数用于计算一系列变化百分比。假设我们有一个包含[2,3,6]序列。如果我们对这个序列应用pct_change,则返回序列将是[NaN,0.5,1.0]。...从第一个元素到第二个元素增加了50%,从第二个元素到第三个元素增加了100%。Pct_change函数用于比较元素时间序列变化百分比。 df.value_1.pct_change() ? 9....如果axis参数设置为1,nunique将返回每行唯一数目。 13. Lookup 'lookup'可以用于根据、列标签在dataframe查找指定。假设我们有以下数据: ?...Merge Merge()根据共同列组合dataframe。考虑以下两个数据: ? 我们可以基于列共同合并它们。设置合并条件参数是“on”参数。 ?...Replace 顾名思义,它允许替换dataframe。第一个参数是要替换,第二个参数是新。 df.replace('A', 'A_1') ? 我们也可以在同一个字典多次替换。

5.5K30

30 个小例子帮你快速掌握Pandas

选择特定列 3.读取DataFrame一部分行 read_csv函数允许按读取DataFrame一部分。有两种选择。第一个是读取n。...您可能需要更改其他一些选项是: max_colwidth:列显示最大字符数 max_columns:要显示最大列数 max_rows:要显示最大行数 28.计算百分比变化 pct_change...用于计算一系列百分比变化。...在计算元素时间序列顺序数组变化百分比时很有用。 ? 从第一元素(4)到第二元素(5)变化为%25,因此第二个为0.25。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果()。我已经将虚构名称添加到df_new DataFrame。 ? 让我们选择客户名称以Mi开头

10.6K10
您找到你想要的搜索结果了吗?
是的
没有找到

数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

DataFrameplot方法在同一个子图中将每一列绘制为不同折线,并自动生成图例(见图9-14): In [62]: df = pd.DataFrame(np.random.randn(10, 4...在DataFrame,柱状图将每一分组到并排柱子一组。...▲图9-18 每天派对数量百分比 你可以看到本数据集中派对数量在周末会增加。 对于在绘图需要聚合汇总数据,使用seaborn包会使工作更为简单。...▲图9-19 用错误栏按天显示小费百分比 seaborn绘图函数使用一个data参数,这个参数可以是pandasDataFrame。其他参数则与列名有关。...▲图9-26 按星期几数值/时间/是否吸烟划分小费百分比 除了根据'time'在一个面内将不同柱分组为不同颜色,我们还可以通过每个时间添加一来扩展分面网格(见图9-27): In [109]:

5.2K40

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

~ 按 用多个文件建立 DataFrame ~ 按列 从剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...用 dropna() 删除列里所有缺失。 ? 只想删除列缺失高于 10% 缺失,可以设置 dropna() 里阈值,即 threshold. ? 16....要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回与原始数据行数一样输出结果,本例为 4622 。 ?...接下来,为 DataFrame 新增一列,total_price。 ? 如上所示,每一都列出了对应订单总价。 这样一来,计算每行产品占订单总价百分比就易如反掌了。 ? 20....重塑多重索引 Series 泰坦尼克数据集里有一列标注了幸存(Survived)状态,用 0、1 代表。计算该列平均值可以计算整体幸存率。 ?

7.1K20

Pandas 25 式

~ 按 用多个文件建立 DataFrame ~ 按列 从剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...要想执行数学计算,要先把这些列数据类型转换为数值型,下面的代码用 astype() 方法把两列数据类型转化为 float。 ?...要解决这个问题得用 transform() 方法,这个方法执行同样计算,但返回与原始数据行数一样输出结果,本例为 4622 。 ?...接下来,为 DataFrame 新增一列,total_price。 ? 如上所示,每一都列出了对应订单总价。 这样一来,计算每行产品占订单总价百分比就易如反掌了。 ? 20....重塑多重索引 Series 泰坦尼克数据集里有一列标注了幸存(Survived)状态,用 0、1 代表。计算该列平均值可以计算整体幸存率。 ?

8.4K00

python数据科学系列:pandas入门详细教程

自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列多行:单多值(多个列名组成列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....loc和iloc应该理解为是series和dataframe属性而非函数,应用loc和iloc进行数据访问就是根据属性访问过程 另外,在pandas早些版本,还存在loc和iloc兼容结构,即...,可通过axis参数设置是按删除还是按列删除 替换,replace,非常强大功能,对seriesdataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...是在numpy基础上实现,所以numpy常用数值计算操作在pandas也适用: 通函数ufunc,即可以像操作标量一样对seriesdataframe所有元素执行同一操作,这与numpy...;sort_values是按排序,如果是dataframe对象,也可通过axis参数设置排序方向是还是列,同时根据by参数传入指定或者列,可传入多行多列并分别设置升序降序参数,非常灵活。

13.8K20

整理了25个Pandas实用技巧

神奇是,pandas已经将第一列作为索引了: ? 需要注意是,如果你想要你工作在未来可复制,那么read_clipboard()并不值得推荐。...该Seriesnlargest()函数能够轻松地计算出Series3个最大: ? 事实上我们在该Series需要是索引: ?...类似地,你可以通过mean()和isna()函数找出每一列缺失百分比。 ? 如果你想要舍弃那些包含了缺失列,你可以使用dropna()函数: ?...或者你想要舍弃那么缺失占比超过10%列,你可以给dropna()设置一个阈值: ? len(ufo)返回总行数,我们将它乘以0.9,以告诉pandas保留那些至少90%不是缺失列。...如果我们想要增加一列,用于展示每个订单总价格呢?回忆一下,我们通过使用sum()函数得到了总价格: ?

2.8K40

pandas简单介绍(4)

' 类似method='min',但是组间排名总是增加1,而不是一个组相等元素数量 大家可以下面自己练习。...---- 5 描述性统计概述与计算 5.1 描述性统计和汇总统计 pandas对象有一个常用数学、统计学方法集合,大部分属于规约和汇总统计,并且还有处理缺失功能。...下面是对一个DataFrame一个示例: import pandas as pd import numpy as np frame = pd.DataFrame([[2, np.nan], [7, -...;利用corrwith来计算一列对某一列相关性,例如frame.corrwith(frame['two'])计算一列对two列相关性,也可以传入axis='columns'逐行计算。...至此,pandas基础操作已经全部完成,熟练运用这些方法能大大减少编程复杂度,也能提高效率;下一篇将对时间类型做一个专题。

1.4K30

7步搞定数据清洗-Python数据清洗指南

python缺失有3种: 1)Python内置None 2)在pandas,将缺失表示为NA,表示不可用not available。...axis=1表示逢空去掉整列 # 'any'如果一一列)里任何一个数据有任何出现Nan就去掉整行, ‘all’一列)每一个数据都是Nan才去掉这整行 DataDF.dropna(how...2、填充缺失内容:某些缺失可以进行填充,方法有以下四种: 1) 以业务知识经验推测(默认)填充缺失 2) 以同一指标的计算结果(均值、中位数、众数等)填充缺失 3) 用相邻填充缺失 4)...以不同指标的计算结果填充缺失 去除缺失知识点: DataFrame.fillna https://pandas.pydata.org/pandas-docs/stable/reference/api...如果想了解更多 fillna() 详细信息参考 pandas.DataFrame.fillna pandas.pydata.org 2) 以同一指标的计算结果(均值、中位数、众数等)填充缺失 平均值

4.4K20

Pandas 高性能优化小技巧

Ray 将根据可用内核数量进行自动初始化,以一个1.8GB全球健康数据为例 import ray.dataframe as pd import pandas as old_pd print("Pandas...1.2apply方法 dataframe是一种列数据,apply对特定计算做了优化,在针对特定轴(/列)进行运算操作时候,apply效率甚至比iterrow更高. def loop_iterrows_test...在object列每一个元素实际上都是存放内存真实数据位置指针。 category类型在底层使用整型数值来表示该列,而不是用原值。Pandas用一个字典来构建这些整型数据到原数据映射关系。...当一列只包含有限种时,这种设计是很不错。当我们把一列转换成category类型时,pandas会用一种最省空间int子类型去表示这一列中所有的唯一。 ? object数据类型 ?...for循环可以取得显著性能提升,第三种方法是通过对存储类型设置转换来优化pandas内存使用。

2.9K20

整理了 25 个 Pandas 实用技巧,拿走不谢!

你可以对两列使用astype()函数: ? 但是,如果你对第三列也使用这个函数,将会引起错误,这是因为这一列包含了破折号(用来表示0)但是pandas并不知道如何处理它。...该Seriesnlargest()函数能够轻松地计算出Series3个最大: ? 事实上我们在该Series需要是索引: ?...类似地,你可以通过mean()和isna()函数找出每一列缺失百分比。 ? 如果你想要舍弃那些包含了缺失列,你可以使用dropna()函数: ?...这将告诉我们没定订单总价格和数量。 19. 将聚合结果与DataFrame进行组合 让我们再看一眼orders这个DataFrame: ? 如果我们想要增加一列,用于展示每个订单总价格呢?...你可以看到,每个订单总价格在每一显示出来了。 这样我们就能方便地甲酸每个订单价格占该订单总价格百分比: ? 20. 选取和列切片 让我们看一眼另一个数据集: ?

3.2K10

DataFrame和Series使用

DataFrame和Series是Pandas最基本两种数据结构 可以把DataFrame看作由Series对象组成字典,其中key是列名,是Series Series和Python...行数,列数 df.shape # 查看dfcolumns属性,获取DataFrame列名 df.columns # 查看dfdtypes属性,获取每一列数据类型 df.dtypes df.info...df按加载部分数据:先打印5数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame索引 Pandas默认使用行号作为索引。...loc方法传入行索引,来获取DataFrame部分数据(一多行) df.loc[0] df.loc[99] df.loc[last_row_index] iloc : 通过行号获取行数据 iloc...对象就是把continent取值相同数据放到一组 df.groupby(‘continent’)[字段] → seriesGroupby对象 从分号组Dataframe数据筛序出一列 df.groupby

7610

PySpark︱DataFrame操作指南:增删改查合并统计与数据处理

— 有时候需要根据某个字段内容进行分割,然后生成多行,这时可以使用explode方法   下面代码根据c3字段空格将字段内容进行分割,分割内容存储在新字段c3_,如下所示 jdbcDF.explode...(均返回DataFrame类型): avg(*cols) —— 计算每组中一列多列平均值 count() —— 计算每组中一共有多少,返回DataFrame有2列...,一列为分组组名,另一列总数 max(*cols) —— 计算每组中一列多列最大 mean(*cols) —— 计算每组中一列多列平均值 min(*cols) ——...计算每组中一列多列最小 sum(*cols) —— 计算每组中一列多列总和 — 4.3 apply 函数 — 将df一列应用函数f: df.foreach(f) 或者 df.rdd.foreach...df = df.dropna(subset=['col_name1', 'col_name2']) # 扔掉col1col2任一一列包含na ex: train.dropna().count

29.9K10

6个冷门但实用pandas知识点

图1 2 6个实用pandas小知识 2.1 Series与DataFrame互转 很多时候我们计算过程中产生结果是Series格式,而接下来很多操作尤其是使用「链式」语法时,需要衔接着传入DataFrame...记录顺序 有时候我们需要对数据框整体顺序进行打乱,譬如在训练机器学习模型时,打乱原始数据顺序后取若干作为训练集后若干作为测试集,这在pandas可以利用sample()方法快捷实现。...range(5), 'V2': range(5) }) df.sample(frac=1) 图4 2.3 利用类别型数据减少内存消耗 当我们数据框某些列是由少数几种大量重复形成时,会消耗大量内存...在pandas我们可以对单个Series查看hanans属性来了解其是否包含缺失,而结合apply(),我们就可以快速查看整个数据框哪些列含有缺失: df = pd.DataFrame({...在pandas我们可以利用rank()方法计算一列数据对应排名信息,但在rank()中有参数method来控制具体结果计算策略,有以下5种策略,在具体使用时候要根据需要灵活选择: 「average

86230

灰太狼数据世界(三)

读出来数据就是一个dataframe,可以直接对他进行操作。 如果想获取几行可以直接使用head方法,或者切片,都是可以拿到。...在DataFrame增加一列,我们可以直接给增加一列,就和python字典里面添加元素是一样: import pandas as pd import numpy as np val = np.arange...删除不完整(dropna) 假设我们想删除任何有缺失。这种操作具有侵略性,但是我们可以根据我们需要进行扩展。 我们可以使用isnull来查看dataframe是否有缺失。...) 我们也可以增加一些限制,在一中有多少非空数据是可以保留下来(在下面的例子,行数据至少要有 5 个非空) df1.drop(thresh=5) 删除不完整列(dropna) 我们可以上面的操作应用到列上...df.count()#非空元素计算 df.min()#最小 df.max()#最大 df.idxmin()#最小位置,类似于Rwhich.min函数 df.idxmax()#最大位置,类似于

2.8K30

几个高效Pandas函数

请注意,本文编写于 964 天,最后修改于 964 天,其中某些信息可能已经过时。 Pandas是python中最主要数据分析库之一,它提供了非常多函数、方法,可以高效地处理并分析数据。...Sample Sample用于从DataFrame随机选取若干个列。...Where Where用来根据条件替换行。如果满足条件,保持原来,不满足条件则替换为其他。默认替换为NaN,也可以指定特殊。...比如说给定三个元素[2,3,6],计算相差百分比后得到[NaN, 0.5, 1.0],从第一个元素到第二个元素增加50%,从第二个元素到第三个元素增加100%。...Nunique 注意:nunique()与unique()方法不同。 Nunique用于计算列上唯一数量,即去重后计数。

1.5K60

Python科学计算Pandas

而Scipy(会在接下来帖子中提及)当然是另一个主要也十分出色科学计算库,但是我认为三者才是真正Python科学计算支柱。...过滤 当你查看你数据集时,你可能希望获得一个特殊样本数据。例如,如果你有一个关于工作满意度问卷调查数据,你可能想要获得所有在同一同一年龄段的人数据。...好,我们也可以在Pandas做同样事。 ? 上述代码将范围一个布尔dataframe,其中,如果9、10月降雨量低于1000毫米,则对应布尔为‘True’,反之,则为’False’。...在返回series,这一一列都是一个独立元素。 可能在你数据集里有年份列,或者年代列,并且你希望可以用这些年份年代来索引某些。这样,我们可以设置一个(多个)新索引。 ?...这将会给’water_year’一个新索引。注意到列名虽然只有一个元素,却实际上需要包含于一个列表。如果你想要多个索引,你可以简单地在列表增加另一个列名。 ?

2.9K00
领券