开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python groupby apply返回奇怪的数据帧

Python中的groupby函数是pandas库中的一个功能，它可以根据指定的列对数据进行分组。apply函数是groupby函数的一个方法，它可以对每个分组应用自定义的函数。

在使用groupby函数时，可能会遇到apply返回奇怪的数据帧的情况。这通常是由于apply函数中的自定义函数的返回值不符合预期导致的。

要解决这个问题，可以检查自定义函数的逻辑，确保它正确地处理每个分组并返回期望的结果。另外，还可以尝试使用其他的聚合函数，如sum、mean、count等，看是否能得到正确的结果。

以下是一个示例代码，演示了如何使用groupby和apply函数，并处理返回奇怪的数据帧的情况：

import pandas as pd

# 创建一个示例数据集
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'two', 'two', 'one', 'two', 'one'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]}
df = pd.DataFrame(data)

# 使用groupby和apply函数对数据进行分组和处理
def custom_function(group):
    # 自定义函数的逻辑
    # 这里假设我们想要计算每个分组的平均值
    return group.mean()

result = df.groupby(['A', 'B']).apply(custom_function)

print(result)

在上述示例中，我们创建了一个包含'A'、'B'、'C'和'D'列的数据集。然后，我们使用groupby函数将数据按照'A'和'B'列进行分组，并使用apply函数应用自定义函数custom_function。在这个自定义函数中，我们计算了每个分组的平均值。最后，我们打印出结果。

请注意，这只是一个示例，实际应用中的自定义函数可能会更加复杂。根据具体的需求，自定义函数可以进行各种操作，如计算统计指标、数据清洗、特征工程等。

对于腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，我无法给出相关链接。但是，腾讯云提供了丰富的云计算服务，包括云服务器、云数据库、云存储等，可以根据具体需求选择适合的产品。

相关搜索:dask数据帧中的df.groupby(...).apply(...).reset_index()df.apply在pandas数据帧中返回NaN groupby.apply更改原始数据帧 Pandas groupby agg返回的内容不是数据帧。如何对数据帧求值？Pandas groupby().apply() -从应用的函数返回None会弄乱结果 pandas groupby中的apply函数可以返回多个数据帧吗？Pandas:返回字典的Groupby和apply函数 Pandas:返回序列而不是数据帧的DataFrame.apply pandas根据apply函数返回的dict创建新的数据帧 Python Pandas订购奇怪的数据帧

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg

二、非聚合类方法　　这里的非聚合指的是数据处理前后没有进行分组操作，数据列的长度没有发生改变，因此本章节中不涉及groupby()，首先读入数据，这里使用到的全美婴儿姓名数据，包含了1880-2018...2.2 apply() 　　apply()堪称pandas中最好用的方法，其使用方式跟map()很像，主要传入的主要参数都是接受输入返回输出，但相较于map()针对单列Series进行处理，一条apply...● 结合tqdm给apply()过程添加进度条　　我们知道apply()在运算时实际上仍然是一行一行遍历的方式，因此在计算量很大时如果有一个进度条来监视运行进度就很舒服，在（数据科学学习手札53）Python...将传入的函数等作用于整个数据框中每一个位置的元素，因此其返回结果的形状与原数据框一致，譬如下面的简单示例，我们把婴儿姓名数据中所有的字符型数据消息小写化处理，对其他类型则原样返回： def lower_all_string...当变量为1个时传入名称字符串即可，当为多个时传入这些变量名称列表，DataFrame对象通过groupby()之后返回一个生成器，需要将其列表化才能得到需要的分组后的子集，如下面的示例： #按照年份和性别对婴儿姓名数据进行分组

5K6 0

python中fillna_python – 使用groupby的Pandas fillna

例如,我有这个数据帧 one | two | three 1 1 10 1 1 nan 1 1 nan 1 2 nan 1 2 20 1 2 nan 1 3 nan 1 3 nan 我想使用列[‘one...我尝试过使用groupby fillna() df[‘three’] = df.groupby([‘one’,’two’])[‘three’].fillna() 这给了我一个错误....我尝试了向前填充,这给了我相当奇怪的结果,它向前填充第2列.我正在使用此代码进行前向填充. df[‘three’] = df.groupby([‘one’,’two’], sort=False)[‘three..., sort=False)[‘three’] .apply(lambda x: x.ffill().bfill()) print (df) one two three 0 1 1 10.0 1 1 1...1 1 10.0 1 1 1 40.0 2 1 1 25.0 3 1 2 20.0 4 1 2 20.0 5 1 2 20.0 6 1 3 NaN 7 1 3 NaN 标签：python,pandas

1.7K3 0

PySpark UD(A)F 的高效使用

在功能方面，现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能，例如groupby、聚合等等。...这还将确定UDF检索一个Pandas Series作为输入，并需要返回一个相同长度的Series。它基本上与Pandas数据帧的transform方法相同。...GROUPED_MAP UDF是最灵活的，因为它获得一个Pandas数据帧，并允许返回修改的或新的。 4.基本想法解决方案将非常简单。...这意味着在UDF中将这些列转换为JSON，返回Pandas数据帧，并最终将Spark数据帧中的相应列从JSON转换为复杂类型 [2enpwvagkq.png] 5.实现将实现分为三种不同的功能: 1)...除了转换后的数据帧外，它还返回一个带有列名及其转换后的原始数据类型的字典。 complex_dtypes_from_json使用该信息将这些列精确地转换回它们的原始类型。

19.4K3 1

Python数据分析中第二好用的函数 | apply

Apply初体验 apply函数，因为她总是和分组函数一起出现，所以在江湖得了个“groupby伴侣”的称号。...如果把源数据比作面粉，groupby分组就是把面粉揉成一个个面团的过程，apply起到的作用，是根据数据需求来调馅，并且把每一个面团包成我们喜欢的包子。...思路：最好和最差，分别对应着max与min，我们先按姓名分组，再用apply函数返回对应的最大和最小值，最终将结果合并。先导入源数据： ? 看一看每位同学最高成绩： ?...其中，揉面的过程就是groupby分组，而DIY调馅做包子就是apply自定义函数和应用的过程。...有个问题需要注意，有一些直辖市是和省并列的，而作为城市只有单独的一行，这样的城市我们就默认返回其本身的数据；对于非直辖市省份来说，就需要定位筛选。

1.2K2 0

Python pandas十分钟教程

Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息，介绍如何使用Pandas的不同函数进行数据探索和操作。....apply的行或列中应用函数。...下面的代码将平方根应用于“Cond”列中的所有值。 df['Cond'].apply(np.sqrt) 数据分组有时我们需要将数据分组来更好地观察数据间的差异。...Concat适用于堆叠多个数据帧的行。...按列连接数据 pd.concat([df, df2], axis=1) 按行连接数据 pd.concat([df, df2], axis=0) 当您的数据帧之间有公共列时，合并适用于组合数据帧。

9.8K5 0

利用 Pandas 的 transform 和 apply 来处理组级别的丢失数据

不过，结果看起来有些奇怪。女孩的 KDE 有两个驼峰。有人可能会得出结论，在我们的样本中有一个子组的女孩体重较重。因为我们预先构建了分布，所以我们知道情况并非如此。...，会出现一些奇怪的双峰分布（后面有代码）。...下载数据帧中的数据示例让我们看看我们每年有多少国家的数据。 ?...每年有数据的国家数量 # PLOT CODE: df.groupby(['Year']).size().plot( kind='bar', title='Number of...扩展数据帧，所有国家在 2005 年到 2018 年间都有数据 2.在对每个国家分组的范围之外的年份内插和外推 # Define helper function def fill_missing(grp

1.8K1 0

不再纠结，一文详解pandas中的map、apply、applymap、groupby、agg...

以下文章来源于Python大数据分析，作者费弗里文章的数据和代码都已上传至我的github仓库：https://github.com/CNFeffery/DataScienceStudyNotes...输出多列数据有些时候我们利用apply()会遇到希望同时输出多列数据的情况，在apply()中同时输出多列时实际上返回的是一个Series，这个Series中每个元素是与apply()中传入函数的返回值顺序对应的元组...可以看到，这里返回的是单列结果，每个元素是返回值组成的元组，这时若想直接得到各列分开的结果，需要用到zip(*zipped)来解开元组序列，从而得到分离的多列返回值： a, b = zip(*data.apply...不同的是applymap()将传入的函数等作用于整个数据框中每一个位置的元素，因此其返回结果的形状与原数据框一致。...当为多个时传入这些变量名称列表，DataFrame对象通过groupby()之后返回一个生成器，需要将其列表化才能得到需要的分组后的子集，如下面的示例： #按照年份和性别对婴儿姓名数据进行分组 groups

4.9K1 0

【利用Python进行金融数据分析-04】apply函数的使用

display.width',1000) url = 'https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply.../US_Crime_Rates/US_Crime_Rates_1960_2014.csv' crime = pd.read_csv(url) 查看每个数据列的数据类型 print(crime.info...()) 将Year的数据类型转换为datatime64 crime.Year = pd.to_datetime(crime.Year,format='%Y') print(crime.info())...将Year设置为数据框的索引 crime = crime.set_index('Year',drop= False) print(crime.head()) 删除名为Total的列 del crime...['Total'] print(crime) 按照Year对数据框进行分组并求和 crimes = crime.resample('10AS').sum() population = crime[

7603 0

数据科学 IPython 笔记本 7.11 聚合和分组

7.11 聚合和分组原文：Aggregation and Grouping 译者：飞龙协议：CC BY-NC-SA 4.0 本节是《Python 数据科学手册》（Python Data Science...特别是GroupBy对象有aggregate()，filter()，transform()和apply()方法，在组合分组数据之前，它们有效实现各种实用操作。...这里因为组 A 没有大于 4 的标准差，所以从结果中删除它。转换虽然聚合必须返回数据的简化版本，但转换可以返回完整数据的某些重新组合的转换版本。对于这种变换，输出与输入的形状相同。...例如，这里是一个apply()，它按照第二列的总和将第一列标准化： def norm_by_data2(x): # x 是分组值的数据帧 x['data1'] /= x['data2']...apply()非常灵活：唯一的规则是，函数接受一个DataFrame并返回一个 Pandas 对象或标量；在中间做什么取决于你！

3.6K2 0

不再纠结，一文详解pandas中的map、apply、applymap、groupby、agg...

2.2 apply() apply()堪称pandas中最好用的方法，其使用方式跟map()很像，主要传入的主要参数都是接受输入返回输出。...有些时候我们利用apply()会遇到希望同时输出多列数据的情况，在apply()中同时输出多列时实际上返回的是一个Series，这个Series中每个元素是与apply()中传入函数的返回值顺序对应的元组...) 可以看到，这里返回的是单列结果，每个元素是返回值组成的元组，这时若想直接得到各列分开的结果，需要用到zip(*zipped)来解开元组序列，从而得到分离的多列返回值： a, b = zip(*data.apply...不同的是applymap()将传入的函数等作用于整个数据框中每一个位置的元素，因此其返回结果的形状与原数据框一致。...当为多个时传入这些变量名称列表，DataFrame对象通过groupby()之后返回一个生成器，需要将其列表化才能得到需要的分组后的子集，如下面的示例： #按照年份和性别对婴儿姓名数据进行分组 groups

4K3 0

Python将Post返回的数据进行简单解析

import requests import json url = 'https://www.vivo.com/store/shops' headers = ...

3K1 0

一行代码加快pandas计算速度

df和要应用的函数func，只需替换经典apply的parallel_apply。...并行应用进度条并配有更复杂的情况下使用带有pandas DataFrame df，该数据帧的两列column1，column2和功能应用func： # Standard pandas apply df.groupby...(column1).column2.rolling(4).apply(func) # Parallel apply df.groupby(column1).column2.rolling(4).parallel_apply...操作系统：Linux Ubuntu 16.04 硬件：Intel Core i7 @ 3.40 GHz - 4核 4核上的标准与并行（越低越好）除了df.groupby.col_name.rolling.apply...调用parallel_apply时，Pandaral·lel：实例化一个Pyarrow Plasma共享内存 https://arrow.apache.org/docs/python/plasma.html

3.6K4 0

数据科学的原理与技巧三、处理表格数据

请注意.loc切片是包容性的，与 Python 的切片不同。....iloc的工作方式类似.loc，但接受数字索引而不是标签。它的切片中没有包含右边界，就像 Python 的列表切片。...baby.groupby('Year') # .groupby()返回一个奇怪的...现在让我们使用多列分组，来计算每年和每个性别的最流行的名称。由于数据已按照年和性别的递减顺序排序，因此我们可以定义一个聚合函数，该函数返回每个序列中的第一个值。...我们现在可以将最后一个字母的这一列添加到我们的婴儿数据帧中。

4.6K1 0

Python数据分析 | Pandas数据分组与操作

上面返回的Groupby处理结果是内存地址，并不利于直观地理解，我们可以把group转换成list的形式来看一看内部数据和整个过程： list(group) [0fce16acf72553288c05cf94d05f6343...transform：会对每一条数据求得相应的结果，同一组内的样本会有相同的值，组内求完均值后会按照原索引的顺序返回结果 2.4 apply方法之前我们介绍过对Dataframe使用apply进行灵活数据变换操作处理的方法...对于groupby后的apply，实际上是以分组后的子DataFrame作为参数传入指定函数的，基本操作单位是DataFrame，而之前介绍的apply的基本操作单位是Series。...所以，groupby之后怼数据做操作，优先使用agg和transform，其次再考虑使用apply进行操作。...系列教程推荐图解Python编程：从入门到精通系列教程图解数据分析：从入门到精通系列教程图解AI数学基础：从入门到精通系列教程图解大数据技术：从入门到精通系列教程

2.8K4 1

Python数据处理神器pandas，图解剖析分组聚合处理

点击上方"数据大宇宙"，设为星标，干货资料，第一时间送到！前言身边有许多正在学习 Python 的 pandas 库做数据处理的小伙伴们都遇到一个问题——分组聚合。...本文主要涉及的函数和要的： groupby apply agg transform 总结这些函数的特点，说明解决思路。...注意一点，只是调用 groupby 方法，没有进行任何的处理，只返回一个迭代器。行21，只有当你需要数据时，才会真正执行分组的运算返回结果是一个元组(key,每个组的记录的DataFrame)。...因此，为什么很多文章说，apply 不能使用 python 内置函数，实际是 python 内置函数不能处理 DataFrame 而已。...apply 在处理的最后一步，把每个分组的处理结果合并成一个 DataFrame 返回。 ---- apply 中还可以传入自定义函数，比如我们希望用 value 减去 age 。

1.2K2 1

其实你就学不会 Python

Python 用来处理结构化数据需要有一个叫 Pandas 的开源包，这东西不是 Python 的固有组件，你得自己再下载安装，过程就不太简单了，要配一堆让初学者晕死的东西。...，为什么出来这么多列，它像是对每一列都做了同样的动作，好奇怪。...']=pd.to_datetime(employee['HIREDATE']) employee_new = employee.groupby('DEPT',as_index=False).apply(...) 但是，这里最关键的倒数第二句，有个 apply 和 lambda 的那句，能看明白吗？...想理解这些原理后正确运用，其难度和繁度都不是非专业人员能够和应该做的。还有 apply+lambda 这种东西，不用呢，批量数据处理的代码太啰嗦，想用却很难搞懂。

861 0

python数据分析——数据分类汇总与统计

这些库提供了丰富的数据处理、分析和可视化功能，使得Python在数据分析领域独具优势。...1.1按列分组按列分组分为以下三种模式：第一种: df.groupby(col),返回一个按列进行分组的groupby对象; 第二种: df.groupby([col1,col2]),返回一个按多列进行分组的...groupby对象; 第三种: df.groupby(col1)[col2]或者 df[col2].groupby(col1),两者含义相同，返回按列col1进行分组后col2的值; 首先生成一个表格型数据集...(df['key1']) gg 【例1】采用函数df.groupby(col),返回一个按列进行分组的groupby对象。...关键技术:可以向groupby传入as_index=False以禁用索引功能。三、apply：一般性的“拆分-应用-合并” 最通用的GroupBy方法是apply,本节将重点讲解它该函数。

1571 0

在Python中使用Pygal进行交互可视化

在本文中，我们将介绍一个Python库，它可以帮助我们创建引人注目的、令人惊叹的、交互式的可视化。...它就是Pygal 2 Pygal介绍当使用Python可视化数据时，大多数数据科学家使用臭名昭著的Matplotlib、Seaborn或Bokeh。然而，一个经常被忽视的库是Pygal。...执行该命令将返回: Index(['date', 'county', 'state', 'fips', 'cases', 'deaths'], dtype='object') 我们可以获得一个10行的样本来查看我们的数据帧是什么样子的...sort_by_cases = data.sort_values(by=['cases'],ascending=False).groupby(['state'])['cases'].apply(list...使用饼状图，我们可以看到一个州的案例数相对于其他州的百分比。由于我们已经完成了所有的数据帧操作，我们可以使用它来立即创建饼图。

1.3K1 0

《Pandas Cookbook》第07章分组聚合、过滤、转换1. 定义聚合2. 用多个列和函数进行分组和聚合3. 分组后去除多级索引4. 自定义聚合函数5. 用 *args 和 **kwargs

(grouped.agg) Out[32]: 如何做 # 自定义一个返回去本科生人数在1000和3000之间的比例的函数 In[33..._filter_empty_groups: /Users/Ted/anaconda/lib/python3.6/site-packages/pandas/core/groupby.py in _python_apply_general..._wrap_applied_output( /Users/Ted/anaconda/lib/python3.6/site-packages/pandas/core/groupby.py in apply..._libs.index.IndexEngine.get_loc (pandas/_libs/index.c:5210)() KeyError: 'UGDS' # apply的一个不错的功能是通过返回Series...更多 # 自定义一个返回DataFrame的函数，使用NumPy的函数average计算加权平均值，使用SciPy的gmean和hmean计算几何和调和平均值 In[82]: from scipy.stats

8.8K2 0

使用Pandas_UDF快速改造Pandas代码

其中调用的Python函数需要使用pandas.Series作为输入并返回一个具有相同长度的pandas.Series。...“split-apply-combine”包括三个步骤：使用DataFrame.groupBy将数据分成多个组。对每个分组应用一个函数。函数的输入和输出都是pandas.DataFrame。...要使用groupBy().apply()，需要定义以下内容：定义每个分组的Python计算函数，这里可以使用pandas包或者Python自带方法。...需要注意的是，StructType对象中的Dataframe特征顺序需要与分组中的Python计算函数返回特征顺序保持一致。...此外，在应用该函数之前，分组中的所有数据都会加载到内存，这可能导致内存不足抛出异常。下面的例子展示了如何使用groupby().apply() 对分组中的每个值减去分组平均值。

7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭