首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

尝试使用pandas数据框中其他两列的groupby基于另一列创建新的滚动平均列时出错

在使用pandas数据框中的groupby基于另一列创建新的滚动平均列时出错,可能是由于以下原因导致的:

  1. 数据类型错误:首先,需要确保参与计算的列的数据类型是数值型的,否则会导致计算错误。可以使用df.dtypes检查每列的数据类型,并使用astype方法将其转换为正确的数据类型。
  2. 缺失值处理:如果参与计算的列存在缺失值,可能会导致计算错误。可以使用df.dropna()方法删除包含缺失值的行,或使用df.fillna()方法将缺失值填充为特定的值。
  3. 分组列错误:在使用groupby进行分组时,需要确保指定的分组列存在于数据框中,并且没有拼写错误。可以使用df.columns查看数据框的列名,确保分组列的名称正确。
  4. 滚动平均计算错误:在使用groupby创建滚动平均列时,需要使用rolling函数指定滚动窗口的大小,并使用mean函数计算平均值。例如,可以使用以下代码创建一个名为"rolling_mean"的滚动平均列:
代码语言:txt
复制
df['rolling_mean'] = df.groupby('group_column')['target_column'].rolling(window=3).mean()

在上述代码中,"group_column"是用于分组的列名,"target_column"是要计算滚动平均的列名,窗口大小为3。

如果以上方法仍然无法解决问题,可能需要提供更多的具体信息,例如错误提示、数据示例等,以便更好地帮助解决问题。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

初学者使用Pandas特征工程

用于文本提取apply() pandasapply() 函数允许在pandas系列上传递函数并将其传递到变量每个点。 它接受一个函数作为参数,然后将其应用于数据行或。...为了达到我们目的,我们将使用具有转换功能groupby创建聚合功能。...这就是我们如何创建多个方式。在执行这种类型特征工程要小心,因为在使用目标变量创建特征,模型可能会出现偏差。...仅通过单个日期时间变量,我们就可以创建六个变量,这些变量在模型构建肯定会非常有用,这并不奇怪。 注意:我们可以使用pandas dt函数创建新功能方式有50多种。...它取决于问题陈述和日期时间变量(每天,每周或每月数据频率来决定要创建变量。 尾注 那就是pandas力量;仅用几行代码,我们就创建了不同类型变量,可以将模型性能提升到另一个层次。

4.8K31

Pandas之实用手册

如果你打算学习 Python 数据分析、机器学习或数据科学工具,大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析开源库。...最简单方法是删除缺少值行:fillna()另一种方法是使用(例如,使用 0)填充缺失值。1.5 分组使用特定条件对行进行分组并聚合其数据。...例如,按流派对数据集进行分组,看看每种流派有多少听众和剧目:Pandas个“爵士乐”行组合为一行,由于使用了sum()聚合,因此它将位爵士乐艺术家听众和演奏加在一起,并在合并爵士乐显示总和...groupby()折叠数据集并从中发现见解。聚合是也是统计基本工具之一。除了 sum(),pandas 还提供了多种聚合函数,包括mean()计算平均值、min()、max()和多个其他函数。...1.6 从现有创建通常在数据分析过程,发现需要从现有创建Pandas轻松做到。

13710

30 个 Python 函数,加速你数据分析处理速度!

12.Groupby 函数 Pandas Groupby 函数是一个多功能且易于使用功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间基本关系更加容易。 我们将做几个组比函数示例。...df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int') 21.唯一值数 它使用分类变量派上用场...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多小数点。...pd.set_option("display.precision", 2) 可能要更改一些其他选项包括: max_colwidth:显示最大字符数 max_columns:要显示最大数 max_rows...在计算时间序列或元素顺序数组更改百分比,它很有用。

8.9K60

Pandas 2.2 中文官方教程和指南(二十五·一)

对齐和截止日期 基于值而不是计数滚动计算窗口 按时间间隔计算滚动均值 分割 分割一个框架 创建一个数据列表,根据包含在行逻辑进行分割。...和另一个分组创建子组,然后应用自定义函数 GH 3791 使用自定义周期重新采样 重新采样日内框架而不添加新天数 重新采样分钟数据 使用 groupby 重新采样 ## 合并 连接 文档。...展示了一个从 csv 文件接收数据并按块创建存储函数,同时还进行了日期解析。...不建议使用这种原始二进制文件格式进行通用数据存储,因为它不跨平台。我们建议使用 HDF5 或 parquet,这者都受到 pandas IO 设施支持。...要从一些给定值每个组合创建一个数据,就像 R expand.grid()函数一样,我们可以创建一个字典,其中键是列名,值是数据列表: In [241]: def expand_grid(data_dict

26700

UCB Data100:数据科学原理和技巧:第一章到第五章

2.3 DataFrame属性:索引、和形状 另一方面,DataFrame列名几乎总是唯一。回顾elections数据集,有命名为“Candidate”是没有意义。...幸运是,这样做语法非常简单。 要向DataFrame添加,我们使用语法与访问现有类似。...这不是表示这些数据最直观方式 - 而且,因为多索引 DataFrame 在其索引中有多个维度,它们通常很难使用另一种跨进行聚合策略是创建一个数据透视表。你在Data 8看到过这些。...一组值用于创建数据透视表索引;另一组用于定义列名。表每个单元格包含值对应于每个索引-聚合数据。 这是一个过程示例: 理解数据透视表最佳方法是看它实际应用。...left_on和right_on参数被分配给要在执行连接使用字符串名称。这个on参数告诉pandas应该将哪些值作为配对键来确定要在数据之间合并行。

47320

数据科学学习手札69)详解pandasmap、apply、applymap、groupby、agg

二、非聚合类方法   这里非聚合指的是数据处理前后没有进行分组操作,数据长度没有发生改变,因此本章节不涉及groupby(),首先读入数据,这里使用全美婴儿姓名数据,包含了1880-2018...tqdm模块用法,我对基于tqdm为程序添加进度条做了介绍,而tqdm对pandas也是有着很好支持,我们可以使用progress_apply()代替apply(),并在运行progress_apply...将传入函数等作用于整个数据每一个位置元素,因此其返回结果形状与原数据一致,譬如下面的简单示例,我们把婴儿姓名数据中所有的字符型数据消息小写化处理,对其他类型则原样返回: def lower_all_string...3.1 利用groupby()进行分组   要进行分组运算第一步当然就是分组,在pandas数据进行分组使用groupby()方法,其主要使用参数为by,这个参数用于传入分组依据变量名称,...可以注意到虽然我们使用reset_index()将索引还原回变量,但聚合结果列名变成红色奇怪样子,而在pandas 0.25.0以及之后版本,可以使用pd.NamedAgg()来为聚合后每一赋予名字

5K60

从小白到大师,这里有一份Pandas入门指南

它可以通过种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一值在 0 到 59 之间,只带有一位小数,使用 float64...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame ,它会创建索引并将数据存储在 numpy 数组。这是什么意思?...一旦加载了数据,只要正确管理索引,就可以快速地访问数据。 访问数据方法主要有种,分别是通过索引和查询访问。根据具体情况,你只能选择其中一种。但在大多数情况,索引(和多索引)都是最好选择。...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...在这些例子,输出都是一样:有个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值 suicides_sum。

1.7K30

Pandas 2.2 中文官方教程和指南(二十五·二)

使用 DataFrame.map(以前称为 applymap)高效动态创建 In [53]: df = pd.DataFrame({"AAA": [1, 2, 1, 3], "BBB": [1...对齐和截止日期 基于值而不是计数滚动计算窗口 时间间隔滚动均值 分割 拆分框架 创建一个数据列表,根据包含在行逻辑进行分割。...对齐和截止日期 基于值而不是计数滚动计算窗口 按时间间隔计算滚动均值 分割 分割一个框架 创建一个数据列表,根据行包含逻辑进行分割。...和另一个分组来创建子组,然后应用自定义函数 GH 3791 使用自定义周期进行重采样 在不添加新日期情况下重采样日内框架 重采样分钟数据groupby 一起重采样 ### 重采样 重采样 文档...和另一个分组来创建子组,然后应用自定义函数 GH 3791 使用自定义周期进行重采样 在不添加新日期情况下重采样日内框架 重采样分钟数据groupby 一起重采样 合并 连接 文档。

10500

从小白到大师,这里有一份Pandas入门指南

它可以通过种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一值在 0 到 59 之间,只带有一位小数,使用 float64...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame ,它会创建索引并将数据存储在 numpy 数组。这是什么意思?...一旦加载了数据,只要正确管理索引,就可以快速地访问数据。 访问数据方法主要有种,分别是通过索引和查询访问。根据具体情况,你只能选择其中一种。但在大多数情况,索引(和多索引)都是最好选择。...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...在这些例子,输出都是一样:有个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值 suicides_sum。

1.8K11

从小白到大师,这里有一份Pandas入门指南

它可以通过种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一值在 0 到 59 之间,只带有一位小数,使用 float64...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame ,它会创建索引并将数据存储在 numpy 数组。这是什么意思?...一旦加载了数据,只要正确管理索引,就可以快速地访问数据。 访问数据方法主要有种,分别是通过索引和查询访问。根据具体情况,你只能选择其中一种。但在大多数情况,索引(和多索引)都是最好选择。...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...在这些例子,输出都是一样:有个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值 suicides_sum。

1.7K30

多快好省地使用pandas分析大型数据

特别是很多学生党在使用自己性能一般笔记本尝试处理大型数据,往往会被捉襟见肘算力所劝退。但其实只要掌握一定pandas使用技巧,配置一般机器也有能力hold住大型数据分析。...,且整个过程因为中间各种临时变量创建,一度快要撑爆我们16G运行内存空间。...」 因为pandas默认情况下读取数据各个字段确定数据类型不会替你优化内存开销,比如我们下面利用参数nrows先读入数据前1000行试探着看看每个字段都是什么类型: raw = pd.read_csv...: 图8 如果有的情况下我们即使优化了数据精度又筛选了要读入数据量依然很大的话,我们还可以以分块读入方式来处理数据: 「分块读取分析数据」 利用chunksize参数,我们可以为指定数据创建分块读取...,其他pandas主流API使用方式则完全兼容,帮助我们无缝地转换代码: 图11 可以看到整个读取过程只花费了313毫秒,这当然不是真的读进了内存,而是dask延时加载技术,这样才有能力处理「超过内存范围数据

1.4K40

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

本文就将针对pandasmap()、apply()、applymap()、groupby()、agg()等方法展开详细介绍,并结合实际例子帮助大家更好地理解它们使用技巧。...譬如这里我们编写一个使用到多数据函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好函数(当调用DataFrame.apply(),apply()在串行过程实际处理是每一行数据...输出多数据 有些时候我们利用apply()会遇到希望同时输出多数据情况,在apply()同时输出多实际上返回是一个Series,这个Series每个元素是与apply()传入函数返回值顺序对应元组...3.1 利用groupby()进行分组 要进行分组运算第一步当然就是分组,在pandas数据进行分组使用groupby()方法。...可以注意到虽然我们使用reset_index()将索引还原回变量,但聚合结果列名变成红色奇怪样子,而在pandas 0.25.0以及之后版本,可以使用pd.NamedAgg()来为聚合后每一赋予名字

4.9K10

python数据分析——数据分类汇总与统计

下表是经过优化groupby方法: 2.1. groupby聚合函数 首先创建一个dataframe对象: 【例8】使用groupby聚合函数对数据进行统计分析。...如果说用groupby进行数据分组,可以看做是基于行(或者说是index)操作的话,则agg函数则是基于聚合操作。...关键技术: groupby函数和agg函数联用。在我们用pandas数据进 行分组聚合实际操作,很多时候会同时使用groupby函数和agg函数。...具体办法是向agg传入一个从列名映射到函数字典: 只有将多个函数应用到至少一,DataFrame才会拥有层次化 2.3.返回不含行索引聚合数据 到目前为止,所有例聚合数据都有由唯一分组键组成索引..., margins=False, dropna=True) 参数说明: data =原始数据,要应用透视表数据; index=用于分组列名或其他分组键,出现在结果透视表行; columns

15710

PySpark SQL——SQL和pd.DataFrame结合体

1)创建DataFrame方式主要有大类: 从其他数据类型转换,包括RDD、嵌套list、pd.DataFrame等,主要是通过spark.createDataFrame()接口创建 从文件、数据读取创建...这里补充groupby个特殊用法: groupby+window时间开窗函数时间重采样,对标pandasresample groupby+pivot实现数据透视表操作,对标pandaspivot_table...:删除指定 最后,再介绍DataFrame几个通用常规方法: withColumn:在创建或修改已有较为常用,接收个参数,其中第一个参数为函数执行后列名(若当前已有则执行修改,否则创建...select等价实现,二者区别和联系是:withColumn是在现有DataFrame基础上增加或修改一,并返回DataFrame(包括原有其他),适用于仅创建或修改单列;而select准确讲是筛选...,仅仅是在筛选过程可以通过添加运算或表达式实现创建多个,返回一个筛选DataFrame,而且是筛选多少列就返回多少列,适用于同时创建情况(官方文档建议出于性能考虑和防止内存溢出,在创建首选

9.9K20

不再纠结,一文详解pandasmap、apply、applymap、groupby、agg...

本文就将针对pandasmap()、apply()、applymap()、groupby()、agg()等方法展开详细介绍,并结合实际例子帮助大家更好地理解它们使用技巧。...譬如这里我们编写一个使用到多数据函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好函数(当调用DataFrame.apply(),apply()在串行过程实际处理是每一行数据...有些时候我们利用apply()会遇到希望同时输出多数据情况,在apply()同时输出多实际上返回是一个Series,这个Series每个元素是与apply()传入函数返回值顺序对应元组...3.1 利用groupby()进行分组 要进行分组运算第一步当然就是分组,在pandas数据进行分组使用groupby()方法。...False) 可以注意到虽然我们使用reset_index()将索引还原回变量,但聚合结果列名变成红色奇怪样子,而在pandas 0.25.0以及之后版本,可以使用pd.NamedAgg

4K30

Pandas 2.2 中文官方教程和指南(四)

查看如何从现有创建。 过滤 在 Excel ,过滤是通过图形菜单完成数据可以通过多种方式进行过滤;其中最直观使用布尔索引。...在 pandas ,您可以使用特殊方法来读取和写入 Excel 文件。 让我们首先根据上面示例tips数据创建一个 Excel 文件: tips.to_excel("....在 pandas ,您使用特殊方法来读取和写入 Excel 文件。 首先,基于上面示例 tips 数据,让我们创建一个 Excel 文件: tips.to_excel("....在 pandas ,您使用特殊方法来读取和写入 Excel 文件。 首先,基于上面示例 tips 数据,让我们创建一个 Excel 文件: tips.to_excel("....数据操作 列上操作 在电子表格,公式通常在单个单元格创建,然后拖动到其他单元格以计算其他值。在 pandas ,您可以直接对整个进行操作。

20510

Pandas 秘籍:6~11

但是,像往常一样,每当一个数据帧从另一数据帧或序列添加一个,索引都将在创建之前首先对齐。 准备 此秘籍使用employee数据集添加一个,其中包含该员工部门最高薪水。...现在,当我们尝试创建,将引发一个错误,警告我们有重复项。...由于数据索引相同,因此可以像第 7 步那样将一个数据值分配给另一。 更多 从步骤 2 开始,完成此秘籍另一种方法是直接从sex_age中分配,而无需使用split方法。...merge方法提供了类似 SQL 功能,可以将数据帧结合在一起。 将行追加到数据帧 在执行数据分析创建创建行更为常见。...但是,groupby方法可以按时间段和其他进行分组。 准备 在此秘籍,我们将展示种非常相似但不同方法来按时间戳分组,并在另一中进行。

33.9K10

Pandas速查卡-Python数据科学

刚开始学习pandas要记住所有常用函数和方法显然是有困难,所以在Dataquest(https://www.dataquest.io/)我们主张查找pandas参考资料(http://pandas.pydata.org...如果你对pandas学习很感兴趣,你可以参考我们pandas教程指导博客(http://www.dataquest.io/blog/pandas-python-tutorial/),里面包含大部分内容...) 所有唯一值和计数 选择 df[col] 返回一维数组col df[[col1, col2]] 作为数据返回 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...(col) 从一返回一组对象值 df.groupby([col1,col2]) 从多返回一组对象值 df.groupby(col1)[col2] 返回col2平均值,按col1值分组...df.describe() 数值汇总统计信息 df.mean() 返回所有平均值 df.corr() 查找数据之间相关性 df.count() 计算每个数据非空值数量 df.max

9.2K80

Pandasapply, map, transform介绍和性能测试

apply函数是我们经常用到一个Pandas操作。虽然这在较小数据集上不是问题,但在处理大量数据,由此引起性能问题会变得更加明显。...虽然apply灵活性使其成为一个简单选择,但本文介绍了其他Pandas函数作为潜在替代方案。 在这篇文章,我们将通过一些示例讨论apply、agg、map和transform预期用途。...apply一些问题 apply灵活性是非常好,但是它也有一些问题,比如: 从 2014 年开始,这个问题就一直困扰着 pandas。当整个只有一个组,就会发生这种情况。...结果类似于额外拆栈操作。我们这里尝试重现它。我们将使用我们原始数据并添加一个城市。假设我们三个学生 John、James 和 Jennifer 都来自波士顿。  ...df_single_group = df.copy() df_single_group["city"] = "Boston" 让我们计算组组组均值:一组基于subject 另一基于city。

1.9K30
领券