开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pandas: Group By and Conditional Sum and Add Back to Data Frame

Pandas是一个基于Python的数据分析库，提供了丰富的数据结构和数据分析工具，可以方便地进行数据处理、清洗、转换和分析。

在Pandas中，Group By和Conditional Sum是两个常用的操作。

Group By是一种分组聚合操作，可以根据某个或多个列的值将数据分组，并对每个组进行聚合计算。通过Group By，可以对数据进行分组统计、分组计算等操作。

Conditional Sum是指根据某个条件对数据进行筛选，并对满足条件的数据进行求和计算。可以使用条件表达式对数据进行筛选，然后使用sum()函数对筛选后的数据进行求和。

下面是一个示例代码，演示了如何使用Pandas进行Group By和Conditional Sum操作，并将结果添加回原始数据框中：

import pandas as pd

# 创建一个示例数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
        'Age': [25, 30, 35, 25, 30],
        'Salary': [5000, 6000, 7000, 5500, 6500]}
df = pd.DataFrame(data)

# 使用Group By对Name列进行分组，并计算每个组的平均薪资
grouped = df.groupby('Name')
average_salary = grouped['Salary'].mean()

# 使用Conditional Sum对Age列大于30的数据进行求和
conditional_sum = df[df['Age'] > 30]['Age'].sum()

# 将计算结果添加回原始数据框中
df['Average Salary'] = df['Name'].map(average_salary)
df['Conditional Sum'] = conditional_sum

# 打印结果
print(df)

上述代码中，首先创建了一个示例数据框df，包含Name、Age和Salary三列。然后使用Group By对Name列进行分组，并计算每个组的平均薪资，结果存储在average_salary变量中。接着使用条件表达式筛选出Age列大于30的数据，并对筛选后的Age列进行求和，结果存储在conditional_sum变量中。最后，使用map()函数将average_salary映射到原始数据框的Name列，并将conditional_sum添加为新的列。最后打印出完整的数据框。

Pandas相关产品和产品介绍链接地址：

腾讯云Pandas产品介绍：https://cloud.tencent.com/product/pandas

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas之实用手册

Pandas作为大数据分析最流行的框架之一。用好Pandas就像大数据工程师用好SQL用好Excel一样重要。如果你打算学习 Python 中的数据分析、机器学习或数据科学工具，大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析的开源库。

01

pandas分组聚合详解

pandas学到分组迭代，那么基础的pandas系列就学的差不多了，自我感觉不错，知识追寻者用pandas处理过一些数据，蛮好用的；

01

[008] 数据清洗不知如何着手？强力推荐这份清单

It was before the Stack Overflow era, so not much help was available online. Some people would print out cheatsheets of different kinds and hang on the walls around their workstations. Having a couple of pages of frequently used codes in front of the desk was an efficient way of correcting syntax errors.

01

ClickHouse源码笔记5:聚合函数的源码再梳理

话不多说，直接上代码，笔者这里会将所有聚合函数的核心接口代码全部列出，一一梳理各个部分：

03

ClickHouse源码笔记5:聚合函数的源码再梳理

话不多说，直接上代码，笔者这里会将所有聚合函数的核心接口代码全部列出，一一梳理各个部分：

02

机器学习实战（1）：Document clustering 文档聚类

文档聚类是指根据文档的文本和语义背景将其归入不同的组别。它是一种无监督的技术，因为我们没有文件的标签，它在信息检索和搜索引擎中得到了应用。

02

Pandas GroupBy 使用教程

实例 1 将分组后的字符拼接 import pandas as pd df=pd.DataFrame({ 'user_id':[1,2,1,3,3], 'content_id':[1,

02

《利用Python进行数据分析·第2版》第14章数据分析案例14.1 来自Bitly的USA.gov数据14.2 MovieLens 1M数据集14.3 1880-2010年间全美婴儿姓名14.4

本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。 14.1 来自Bitly的USA.gov数据 2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.mil短链接的用户那里收集来的匿名数据。在2011年，除实时数据之外，还可以下载文本文件形式的每小时快照。

05

数据分析之Pandas分组操作总结

Pandas做分析数据，可以分为索引、分组、变形及合并四种操作。之前介绍过索引操作，现在接着对Pandas中的分组操作进行介绍：主要包含SAC含义、groupby函数、聚合、过滤和变换、apply函数。文章的最后，根据今天的知识介绍，给出了6个问题与2个练习，供大家学习实践。

04

Pandas 2.2 中文官方教程和指南（三）

要使Name列中的每个字符串都变为小写，选择Name列（参见数据选择教程），添加str访问器并应用lower方法。因此，每个字符串都被逐个转换。

00

业界使用最多的Python中Dataframe的重塑变形

可以看到，现在index和columns对应的位置有不同的值。因此，必须确保我们指定的列和行没有重复的数据，才可以用pivot函数

01

Python 数据分析（PYDA）第三版（六）

在本书中，我专注于为在 Python 中进行数据分析提供编程基础。由于数据分析师和科学家经常报告花费大量时间进行数据整理和准备，因此本书的结构反映了掌握这些技术的重要性。

00

Pandas

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，Pandas 离这个目标已经越来越近了。

03

Python可视化数据分析05、Pandas数据分析

Series是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签（索引）组成，创建Series对象的语法如下：

02

【工具】深入对比数据科学工具箱：Python和R之争

文章目录概述应用场景对比应用Python的场景应用R的场景数据流编程对比参数传递数据传输与解析基本数据结构 MapReduce 矩阵操作数据框操作数据流编程对比的示例数据可视化对

04

长文：一文掌握Pandas

Pandas是Python数据科学生态中重要的基础成员，功能强大，用法灵活，简单记录之。

04

使用numpy构建多层感知机目标其他组件网络训练与测试

import numpy as np 目标使用numpy实现多层感知机的正向和反向传播层次构建全连接层正向传播正向传播的公式为：$Y = f(W \times X + b)$，其中，Y为输出，W为权值，b为偏置反向传播对于反向传播，已知上一层传回的梯度为dY，对应的反向传播公式为： $$dX = (W^{T} \times dY) \cdot f'(Y)$$ $$dW = \cfrac{1}{m} dY \times X^{T}$$ $$db = \cfrac{1}{m} \sum dY

pandas 时序统计的高级用法！

本次介绍pandas时间统计分析的一个高级用法--重采样。以下是内容展示，完整数据、代码和500页图文可戳👉《pandas进阶宝典V1.1.6》进行了解。

04

实践|随机森林中缺失值的处理方法

除了在网上找到的一些过度清理的数据集之外，缺失值无处不在。事实上，数据集越复杂、越大，出现缺失值的可能性就越大。缺失值是统计研究的一个令人着迷的领域，但在实践中它们往往很麻烦。

02

ClickHouse源码笔记1:聚合函数的实现

聚合函数: 顾名思义就是对一组数据执行聚合计算并返回结果的函数。这类函数在数据库之中很常见，如：count, max, min, sum等等。

06

Plotly深入浅出

作为Python的新一代数据可视化绘图库，和matplotlib等传统绘图库相比，plotly具有以下优点：

03

python数据分析入门笔记［1］

(二)数据排序（用的是tips.csv的数据，数据来源：https://github.com/mwaskom/seaborn-data）

02

R语言包_dplyr_2

data_frame() is a better way than data.frame() for creating data frames. Benefits of data_frame():

04

Python做数据分析（一）分析社区超市运营数据，自动更新促销时间

首先将数据按照类别ID进行分组，然后对分组后的销量进行求和，最后用reset_index重置索引

03

Pandas 2.2 中文官方教程和指南（九·二）

尝试比较不同长度的 Index 或 Series 对象将引发 ValueError：

00

深入对比数据科学工具箱：Python和R之争

在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析（Data Analysis），也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building)，也就是B型数据科学。从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时，我们就需要转移到 Python和R上。在确定工程实施和大数据集操作时，我们就需要依赖Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala和Excel是两个极端，对于大多数创业公司而言，我们没有足够多的人手来实现专业化的分工，更多情况下，我们会在Python和R上花费更多的时间同时完成数据分析（A型）和数据构建（B型）的工作。而许多人也对 Python和R的交叉使用存在疑惑，所以本文将从实践角度对Python和R中做了一个详细的比较。

04

Python 数据处理：Pandas库的使用

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。 🍎个人主页：小嗷犬的博客 🍊个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。 🥭本文内容：Python 数据处理：Pandas库的使用 ---- Python 数据处理：Pandas库的使用 1.Pandas 数据结构 1.1 Series 1.2 DataFrame 2.基本功能 2.1 重新索引 2.2 丢弃指定轴上的项 2.3 索引、选取和过滤 2.4 用 loc 和 iloc 进行选取 2.5

01

Python3分析Excel数据

使用xlrd和xlwt扩展包，确定工作簿中工作表的数量、名称和每个工作表中行列的数量。 1excel_introspect_workbook.py

02

数据城堡参赛代码实战篇（三）---我们来探究一个深奥的问题！

每天12点是小编最激动的时候，因为自己写的帖子又可以与大家见面啦，昨天把帖子传到某个大神组织的数据挖掘交流群时，某挖掘机朋友问了小编一个深刻的问题，题目看似很简单，但是以小编大脑里的知识系统来说，根本

05

数据分析利器Pandas基本功能

---- 概述 pandas是基于Numpy构建的，让处理数据、分析数据和可视化数据都会变得更加简单,官网Pandas.正如官网所说： pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language. Pandas 数据结构 pandas中最主要的数

07

学习scRNAseq这个R包

https://github.com/jmzeng1314/scRNA_smart_seq2/blob/master/scRNA/study_scRNAseq.html

04

《Pandas Cookbook》第07章分组聚合、过滤、转换1. 定义聚合2. 用多个列和函数进行分组和聚合3. 分组后去除多级索引4. 自定义聚合函数5. 用 *args 和 **kwargs

第01章 Pandas基础第02章 DataFrame运算第03章数据分析入门第04章选取数据子集第05章布尔索引第06章索引对齐第07章分组聚合、过滤、转换第08章数据清理第09章合并Pandas对象第10章时间序列分析第11章用Matplotlib、Pandas、Seaborn进行可视化

02

Using LDA for classification使用LDA线性判别分析来分类

Linear Discriminant Analysis (LDA) attempts to fit a linear combination of features to predict the outcome variable. LDA is often used as a preprocessing step. We'll walk through both methods in this recipe.

02

Python面试十问2

Pandas Series.reset_index()函数的作⽤是:⽣成⼀个新的DataFrame或带有重置索引的Series。

01

plotly-express-11-plotly实现柱状图

With px.bar, each row of the DataFrame is represented as a rectangular mark.

01

python 实训总结Ⅱ

举了一个金融界，炒股，获取数据的爬虫（今天没仔细听课，这数据爬过什么意思，咱不懂，咱也不敢问！）

03

读Python数据分析基础之Excel读写与处理

对于业务型数据分析来说，Excel可以说是打交道最多的软件了，可以说没有之一。之前有比较系统地读过《Python数据分析基础》（Foundations for Analysis with Python），写了一些笔记，这里只选取关于Excel的部分。

05

python数据分析之pandas包

相关系数和协方差唯一值值计数及成员资格处理缺失数据层次化索引数据透视生成重排分级次序根据级别汇总统计列索引转为行索引读取文件导出文件数据库风格的DataFrame合并pandas知识体系图

00

Pandas的分组聚合groupby

Pandas怎样实现groupby分组统计 groupby：先对数据分组，然后在每个分组上应用聚合函数、转换函数 import pandas as pd import numpy as np %matplotlib inline df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two

04

Pandas从小白到大师

说明：本文内容翻译、节选自外文From Pandas-wan to Pandas-master[1]，原作者Rudolf Höhn小哥，实验数据来自kaggle [2]的各国自杀率预测竞赛，都需要科学上网,相关文件已上传到本人的github中[3][4]。

04

对比Pandas，轻松理解MySQL分组聚合的实现原理

小小明，「凹凸数据」专栏作者，Pandas数据处理专家，致力于帮助无数数据从业者解决数据处理难题。

03

《Pandas Cookbook》第02章 DataFrame基本操作1. 选取多个DataFrame列2. 对列名进行排序3. 在整个DataFrame上操作4. 串联DataFrame方法5. 在

In[1]: import pandas as pd import numpy as np pd.options.display.max_columns = 40 1. 选取多个DataFrame列 # 用列表选取多个列 In[2]: movie = pd.read_csv('data/movie.csv') movie_actor_director = movie[['actor_1_name', 'actor_2_name', 'actor_3_name

04

Python数据分析实战（2）使用Pandas进行数据分析

Pandas的使用很灵活，最重要的两个数据类型是DataFrame和Series。

03

单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析19

单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析1：https://cloud.tencent.com/developer/article/2055573

03

快速介绍Python数据分析库pandas的基础知识和代码示例

“软件工程师阅读教科书作为参考时不会记住所有的东西，但是要知道如何快速查找重·要的知识点。”

02

《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas的数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格，但二者最大的不同是pandas是专门为处理表格和混杂数据设计的。而NumPy更适合处理统一的数值数组数据。

07

《利用Python进行数据分析·第2版》第10章数据聚合与分组运算10.1 GroupBy机制10.2 数据聚合10.3 apply：一般性的“拆分－应用－合并”10.4 透视表和交叉表10.5 总

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（Structured Query Language，结构化查询语言）能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是，像SQL这样的查询语言所能执行的分组运算的种类很有限。在本章中你将会看

09

Python3分析CSV数据

with语句在语句结束时自动关闭文件对象。使用csv模块reader函数创建文件读取对象filereader，读取输入文件中的行。使用csv模块的writer函数创建文件写入对象filewriter，将数据写入输出文件。函数的第二个参数（delimiter=','）是默认分隔符，如果输入和输出文件都用逗号分隔，就不需要此参数。使用filewriter对象的writerow函数来将每行中的列表值写入输出文件。

01

Pandas|排序，分组，组内排序

01 Pandas的基本排序 Pandas的主要数据结构有2个：DataFrame，Series，针对这两个类型的排序Demo如下： #coding=utf-8 import pandas as pd import numpy as np #以下实现排序功能。 series=pd.Series([3,4,1,6],index=['b','a','d','c']) frame=pd.DataFrame([[2,4,1,5],[3,1,4,5],[5,1,4,2]],columns=['b

04

比较（一）利用python绘制条形图

条形图主要用来比较不同类别间的数据差异，一条轴表示类别，另一条则表示对应的数值度量。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭