开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pandas使用groupby创建新列并避免循环

Pandas是一个基于Python的数据分析库，提供了丰富的数据结构和数据处理功能。在Pandas中，可以使用groupby方法对数据进行分组，并通过创建新列来实现对分组数据的操作，同时避免使用循环。

具体步骤如下：

导入Pandas库：

import pandas as pd

创建DataFrame对象：

data = {'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
        'Age': [20, 21, 19, 20, 18],
        'Score': [90, 85, 92, 88, 95]}
df = pd.DataFrame(data)

使用groupby方法对数据进行分组，并创建新列：

df['Mean_Score'] = df.groupby('Name')['Score'].transform('mean')

上述代码中，通过groupby('Name')将数据按照Name列进行分组，然后使用transform('mean')计算每个分组的平均值，并将结果赋值给新列Mean_Score。

输出结果：

print(df)

输出结果如下：

   Name  Age  Score  Mean_Score
0   Tom   20     90        89.0
1  Nick   21     85        85.0
2  John   19     92        93.5
3   Tom   20     88        89.0
4  John   18     95        93.5

可以看到，新列Mean_Score成功地根据分组计算出了每个分组的平均值，并将结果填充到对应的行中。

Pandas的groupby方法可以灵活地对数据进行分组，并通过transform等方法实现对分组数据的操作，避免了使用循环的复杂性。这在数据分析和数据处理中非常常见，特别适用于对大规模数据进行统计和计算。

推荐的腾讯云相关产品：腾讯云服务器（CVM）和腾讯云数据库（TencentDB），可以提供稳定可靠的云计算基础设施和数据库服务，支持各类应用场景和业务需求。

腾讯云服务器（CVM）产品介绍链接地址：https://cloud.tencent.com/product/cvm 腾讯云数据库（TencentDB）产品介绍链接地址：https://cloud.tencent.com/product/cdb

相关搜索:无法使用count创建新列并保留GroupBy列如何在pandas中使用groupby创建新列？根据groupby shift更改列的值，并创建新的列- Pandas 迭代pandas列并创建新列使用for循环在pandas中创建新列？在pandas中基于groupby shift创建新列如何使用pandas groupby & aggregate生成新列？pandas使用groupby转换创建布尔列根据Groupby和分割其他列创建新的Pandas列使用pandas groupby创建新列以指示特定列上的趋势通过在pandas中将groupby除以sum创建新列使用groupby的一列创建X个带有pandas的新列 Python Pandas从现有列创建新列，避免行迭代用于创建新列的Groupby Pandas:迭代现有列并基于条件创建新列如何避免使用for循环为一个巨大的pandas数据帧创建条件新列？迭代Pandas dataframe的列并创建新变量替换部分pandas行并创建新列在Pandas中分隔列值并使用这些值创建新列 Pandas: groupby并创建一个新列，将聚合应用到两个列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

在Pandas中实现Excel的SUMIF和COUNTIF函数功能

本文介绍如何使用Python pandas库实现Excel中的SUMIF函数和COUNTIF函数功能。

03

初学者使用Pandas的特征工程

Pandas是用于Python编程语言的开源高级数据分析和处理库。使用pandas，可以轻松加载，准备，操作和分析数据。它是用于数据分析操作的最优选和广泛使用的库之一。

03

多表格文件单元格平均值计算实例解析

在日常数据处理工作中，我们经常面临着需要从多个表格文件中提取信息并进行复杂计算的任务。本教程将介绍如何使用Python编程语言，通过多个表格文件，计算特定单元格数据的平均值。

00

数据整合与数据清洗

选择单列。可以直接用列名选择，也可以通过ix、iloc、loc方法进行选择行、列。

03

groupby函数详解

这是由于变量grouped是一个GroupBy对象，它实际上还没有进行任何计算，只是含有一些有关分组键df[‘key1’]的中间数据而已，然后我们可以调用配合函数（如：.mean()方法）来计算分组平均值等。　　因此，一般为方便起见可直接在聚合之后+“配合函数”，默认情况下，所有数值列都将会被聚合，虽然有时可能会被过滤为一个子集。　　一般，如果对df直接聚合时， df.groupby([df['key1'],df['key2']]).mean()（分组键为：Series）与df.groupby(['key1','key2']).mean()（分组键为：列名）是等价的，输出结果相同。　　但是，如果对df的指定列进行聚合时， df['data1'].groupby(df['key1']).mean()（分组键为：Series），唯一方式。此时，直接使用“列名”作分组键，提示“Error Key”。注意：分组键中的任何缺失值都会被排除在结果之外。

01

使用Dask DataFrames 解决Pandas中并行计算的问题

如何将20GB的CSV文件放入16GB的RAM中。如果你对Pandas有一些经验，并且你知道它最大的问题——它不容易扩展。有解决办法吗? 是的-Dask DataFrames。大多数Dask AP

02

统计师的Python日记【第十天：数据聚合】

本文是【统计师的Python日记】第10天的日记回顾一下：第1天学习了Python的基本页面、操作，以及几种主要的容器类型。第2天学习了python的函数、循环和条件、类。第3天了解了Numpy这个工具库。第4、5两天掌握了Pandas这个库的基本用法。第6天学习了数据的合并堆叠。第7天开始学习数据清洗，着手学会了重复值删除、异常值处理、替换、创建哑变量等技能。第8天接着学习数据清洗，一些常见的数据处理技巧，如分列、去除空白等被我一一攻破第9天学习了正则表达式处理文本数据原文复习（点击

08

30 个小例子帮你快速掌握Pandas

链接：https://towardsdatascience.com/30-examples-to-master-pandas-f8a2da751fa4

01

『数据分析』pandas计算连续行为天数的几种思路

最近在处理数据的时候遇到一个需求，核心就是求取最大连续行为天数。类似需求在去年笔者刚接触pandas的时候也做过《利用Python统计连续登录N天或以上用户》，这里我们可以用同样的方法进行实现。

01

Python pandas对excel的操作实现示例

最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍 pandas 的 DataFrame 对列 (Column) 的处理方法。示例数据请通过明哥的gitee进行下载。

02

pandas的类SQL操作

会写python不难，写好却需要下一番功夫，上篇文章写了for循环的简单优化方法，原本想一鼓作气，梳理一下for循环优化的高级方法，但是梳理过程中发现for循环优化需要比较多的python基础知识，如果了解不透彻很难达到优化的效果，因此，笔者想用几个短篇先介绍一下python的常用包和方法，方便后续优化使用。

02

Pandas之实用手册

Pandas作为大数据分析最流行的框架之一。用好Pandas就像大数据工程师用好SQL用好Excel一样重要。如果你打算学习 Python 中的数据分析、机器学习或数据科学工具，大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析的开源库。

01

高手系列！数据科学家私藏pandas高阶用法大全 ⛵

如果你是数据科学家、数据分析师、机器学习工程师，或者任何 python 数据从业者，你一定会高频使用 pandas 这个工具库——它操作简单功能强大，可以很方便完成数据处理、数据分析、数据变换等过程，优雅且便捷。

03

使用Plotly创建带有回归趋势线的时间序列可视化图表

为了说明这是如何工作的，让我们假设我们有一个简单的数据集，它有一个datetime列和几个其他分类列。您感兴趣的是某一列(“类型”)在一段时间内(“日期”)的汇总计数。列可以是数字、类别或布尔值，但是这没关系。

03

数据处理技巧 | 带你了解Pandas.groupby() 常用数据处理方法

今天我们继续推出一篇数据处理常用的操作技能汇总：灵活使用pandas.groupby()函数，实现数据的高效率处理，主要内容如下：

01

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySpark SQL会感到非常熟悉和舒适。

02

Pandas 秘籍：6~11

当以某种方式组合多个序列或数据帧时，在进行任何计算之前，数据的每个维度会首先自动在每个轴上对齐。轴的这种无声且自动的对齐会给初学者造成极大的困惑，但它为超级用户提供了极大的灵活性。本章将深入探讨索引对象，然后展示利用其自动对齐功能的各种秘籍。

01

Pandas必会的方法汇总，数据分析必备！

用Python做数据分析光是掌握numpy和matplotlib可不够，Pandas是必须要掌握的一个重点，numpy虽然能够帮我们处理处理数值型数据，但是这还不够，很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等，比如：我们通过爬虫获取到了存储在数据库中的数据。

02

Pandas

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，Pandas 离这个目标已经越来越近了。

03

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

03

《Pandas Cookbook》第07章分组聚合、过滤、转换1. 定义聚合2. 用多个列和函数进行分组和聚合3. 分组后去除多级索引4. 自定义聚合函数5. 用 *args 和 **kwargs

第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布尔索引第06章索引对齐第07章分组聚合、过滤、转换第08章数据清理第09章合并Pandas对象第10章时间序列分析第11章用Matplotlib、Pandas、Seaborn进行可视化

02

Pandas中实现聚合统计，有几种方法？

Pandas是当前Python数据分析中最为重要的工具，其提供了功能强大且灵活多样的API，可以满足使用者在数据分析和处理中的多种选择和实现方式。今天本文以Pandas中实现分组计数这个最基础的聚合统计功能为例，分享多种实现方案，最后一种应该算是一个骚操作了……

06

Pandas的分组聚合groupby

Pandas怎样实现groupby分组统计 groupby：先对数据分组，然后在每个分组上应用聚合函数、转换函数 import pandas as pd import numpy as np %matplotlib inline df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two

04

多快好省地使用pandas分析大型数据集

pandas虽然是个非常流行的数据分析利器，但很多朋友在使用pandas处理较大规模的数据集的时候经常会反映pandas运算“慢”，且内存开销“大”。

04

从小白到大师，这里有一份Pandas入门指南

在阅读本文时，我建议你阅读每个你不了解的函数的文档字符串（docstrings）。简单的 Google 搜索和几秒钟 Pandas 文档的阅读，都会使你的阅读体验更加愉快。

03

从小白到大师，这里有一份Pandas入门指南

在阅读本文时，我建议你阅读每个你不了解的函数的文档字符串（docstrings）。简单的 Google 搜索和几秒钟 Pandas 文档的阅读，都会使你的阅读体验更加愉快。

01

Python 学习小笔记

里面的元素都可以是不同数据类型的都可以被索引和切片查看一个变量的数据类型使用type(obj)方法如type(tup1)

03

从小白到大师，这里有一份Pandas入门指南

在阅读本文时，我建议你阅读每个你不了解的函数的文档字符串（docstrings）。简单的 Google 搜索和几秒钟 Pandas 文档的阅读，都会使你的阅读体验更加愉快。

03

esproc vs python 4

A3：用ORDERDATE的年份和月份分组，并将该列命名为y，m，同时计算该组的销售量

01

8 个例子帮你快速掌握 Pandas 索引操作

如果您使用Python作为数据处理的语言，那么pandas很可能是你代码中使用最多的库之一。pandas的关键数据结构是DataFrame，这是一个类似电子表格的数据表，由行和列组成。在处理dataframe时，我们经常需要处理索引，这可能很棘手。在本文中，让我们回顾一些关于用pandas处理索引的技巧。

03

使用Pandas_UDF快速改造Pandas代码

PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式，以减少PySpark和Pandas之间的开销。

02

【干货日报】用Python做数据分析更加如鱼得水！Pandas必会的方法汇总，建议收藏！

用Python做数据分析光是掌握numpy和matplotlib可不够，Pandas是必须要掌握的一个重点，numpy虽然能够帮我们处理处理数值型数据，但是这还不够，很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等，比如：我们通过爬虫获取到了存储在数据库中的数据。

04

Pandas进阶｜数据透视表与逆透视

数据透视表将每一列数据作为输入，输出将数据不断细分成多个维度累计信息的二维数据表。在实际数据处理过程中，数据透视表使用频率相对较高，今天云朵君就和大家一起学习pandas数据透视表与逆透视的使用方法。

01

用Python实现透视表的value_sum和countdistinct功能

在pandas库中实现Excel的数据透视表效果通常用的是df['a'].value_counts()这个函数，表示统计数据框(DataFrame) df的列a各个元素的出现次数；例如对于一个数据表如pd.DataFrame({'a':['A','A','B','C','C','C'],'b':[1,2,3,4,5,6],'c':[11,11,12,13,13,14]})，其透视表效果如下：

02

python数据分析——数据分类汇总与统计

数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳，然后对这些数据进行统计分析，以便于更好地了解数据的特点和规律。

01

Pandas 50题练习

Pandas 是基于 NumPy 的一种数据处理工具，该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作，包括数据的索引、分组、统计和清洗。

02

用 Pandas 进行数据处理系列二

获取行操作df.loc[3:6]获取列操作df['rowname']取两列df[['a_name','bname']] ，里面需要是一个 list 不然会报错增加一列df['new']=list([...])对某一列除以他的最大值df['a']/df['a'].max()排序某一列df.sorted_values('a',inplace=True,ascending=True) ， inplace 表示排序的时候是否生成一个新的 dataFrame ， ascending=True 表示升序，默认为升序，如果存在缺失的补值（ Nan )，排序的时候会将其排在末尾

03

使用 Python 对相似索引元素上的记录进行分组

在 Python 中，可以使用 pandas 和 numpy 等库对类似索引元素上的记录进行分组，这些库提供了多个函数来执行分组。基于相似索引元素的记录分组用于数据分析和操作。在本文中，我们将了解并实现各种方法对相似索引元素上的记录进行分组。

03

如何优雅的解决群友的Python问题？

这个问题来源于自己Python交流群中的一个问题，如下图所示，需要计算每列中各值的出现次数，然后组成一个新的表。

02

零基础5天入门Python数据分析：第五课

在第一第二课已经讲了notebook的基础使用，python的基础语法及常用的数据结构及其运算，包括:

03

pandas基础：使用Python pandas Groupby函数汇总数据，获得对数据更好地理解

在Python中，pandas groupby()函数提供了一种方便的方法，可以按照我们想要的任何方式汇总数据。实际上，groupby()函数不仅仅是汇总。我们将介绍一个如何使用该函数的实际应用程序，然后深入了解其后台的实际情况，即所谓的“拆分-应用-合并”过程。

05

pandas分组聚合转换

从上述的例子中不难看出，想要实现分组操作，必须明确三个要素：分组依据分组依据、数据来源数据来源、操作及其返回结果操作及其返回结果。同时从充分性的角度来说，如果明确了这三方面，就能确定一个分组操作，从而分组代码的一般模式：

01

Python数据分析 | Pandas核心操作函数大全

教程地址：http://www.showmeai.tech/tutorials/33

04

一场pandas与SQL的巅峰大战（六）

具体来讲，第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看，去重计数，条件选择，合并连接，分组排序等操作。

01

对比MySQL学习Pandas的groupby分组聚合

不管是mysql，还是pandas，都是处理像excel那样的二维表格数据的。对于一个二维表，每一行都可以看作是一条记录，每一列都可以看作是字段。

01

快速介绍Python数据分析库pandas的基础知识和代码示例

“软件工程师阅读教科书作为参考时不会记住所有的东西，但是要知道如何快速查找重·要的知识点。”

02

太赞了！30 个 Python 函数，加速你的数据分析处理速度！

Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以加快「数据分析」和「预处理」步骤。

06

Python中 Pandas 50题冲关

Pandas 是基于 NumPy 的一种数据处理工具，该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作，包括数据的索引、分组、统计和清洗。

03

DataFrame和Series的使用

可以把DataFrame看作由Series对象组成的字典，其中key是列名，值是Series Series和Python中的列表非常相似，但是它的每个元素的数据类型必须相同

01

其实你就学不会 Python

标题党一下，Python 程序员成千上万，当然有很多人学得会。这里说的“你”，是指职场中的非专业人员。职场人员一般会用 Excel 处理数据，但也会有很多无助的情况，比如复杂计算、重复计算、自动处理等，再遇上个死机没保存，也常常能把人整得崩溃。如果学会了程序语言，这些问题就都不是事了。那么，该学什么呢？无数培训机构和网上资料都会告诉我们：Python! Python 代码看起来很简单，只要几行就能解决许多麻烦的 Excel 问题，看起来真不错。但真是如此吗？作为非专业人员，真能用 Python 来协助我们工作吗？嘿嘿，只是看上去很美！事实上，Python 并不合适职场人员，因为它太难了，作为职场非专业人员的你就学不会，甚至，Python 的难度可能会大到让你连 Python 为什么会难到学不会的道理都理解不了的地步。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭