开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

pandas dataframe按分类列分组，但在分解后保留原始索引

在pandas中，可以使用groupby()函数按照分类列对DataFrame进行分组。分组后，可以使用apply()函数对每个分组进行操作，并且保留原始索引。

下面是一个完善且全面的答案：

pandas是一个强大的数据分析工具，它提供了DataFrame数据结构，可以方便地对数据进行处理和分析。在处理数据时，经常需要按照某一列的值进行分组，并对每个分组进行操作。这时可以使用pandas的groupby()函数。

groupby()函数接受一个或多个列名作为参数，将DataFrame按照这些列的值进行分组。分组后，可以对每个分组应用各种操作，如计算统计量、应用自定义函数等。

在分组后保留原始索引的方法是使用transform()函数。transform()函数可以对每个分组进行操作，并将结果返回到原始DataFrame的相应位置，保持原始索引不变。

下面是一个示例代码：

import pandas as pd

# 创建一个示例DataFrame
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [1, 2, 3, 4, 5, 6]}
df = pd.DataFrame(data)

# 按照Category列分组，并对每个分组的Value列求和
df['Sum'] = df.groupby('Category')['Value'].transform('sum')

# 输出结果
print(df)

输出结果如下：

  Category  Value  Sum
0        A      1    9
1        B      2   12
2        A      3    9
3        B      4   12
4        A      5    9
5        B      6   12

在上面的示例中，我们按照Category列分组，并对每个分组的Value列求和。使用transform()函数将每个分组的求和结果返回到原始DataFrame的相应位置，保留了原始索引。

推荐的腾讯云相关产品是腾讯云数据库TDSQL，它是一种高性能、高可用、分布式的云数据库产品。TDSQL支持MySQL和PostgreSQL两种数据库引擎，可以满足各种规模和场景的数据库需求。您可以通过以下链接了解更多关于腾讯云数据库TDSQL的信息：腾讯云数据库TDSQL产品介绍

希望以上回答能够满足您的需求，如果还有其他问题，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数据科学的原理与技巧三、处理表格数据

我们将提出一个问题，将问题分解为大体步骤，然后使用pandas DataFrame将每个步骤转换为 Python 代码。...然而，Data8 中引入的表格仅包含列标签。 DataFrame的标签称为DataFrame的索引，并使许多数据操作更容易。...索引、切片和排序让我们使用pandas来回答以下问题： 2016 年的五个最受欢迎的婴儿名字是？拆分问题我们可以将这个问题分解成以下更简单的表格操作：分割出 2016 年的行。...我们再次将这个问题分解成更简单的表格操作。将baby表按'Year'和'Sex'分组。对于每一组，计算最流行的名称。认识到每个问题需要哪种操作，有时很棘手。...几乎总是有一种更好的替代方法，用于遍历pandas DataFrame。特别是，遍历DataFrame的特定值，通常应该替换为分组。分组为了在pandas中进行分组。

4.6K1 0

python数据分析——数据分类汇总与统计

1.1按列分组按列分组分为以下三种模式：第一种: df.groupby(col),返回一个按列进行分组的groupby对象; 第二种: df.groupby([col1,col2]),返回一个按多列进行分组的...groupby对象; 第三种: df.groupby(col1)[col2]或者 df[col2].groupby(col1),两者含义相同，返回按列col1进行分组后col2的值; 首先生成一个表格型数据集...关键技术: df.groupby(col1)[col2]或者df[col2].groupby(col1),两者含义相同，返回按列col1进行分组后，col2的值。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时，DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据到目前为止，所有例中的聚合数据都有由唯一的分组键组成的索引...关键技术:分组键会跟原始对象的索引共同构成结果对象中的层次化索引。将group_keys= False传入groupby即可禁止该效果。

1861 0

数据导入与预处理-第6章-02数据变换

转化函数为：其中 \overline{x} 为原始数据的均值， \sigma 为原始数据的标准差。...基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合，多个值将导致列中的MultiIndex。...as_index：表示聚合后新数据的索引是否为分组标签的索引，默认为True。 sort：表示是否对分组索引进行排序，默认为True。...分组操作案例：分组初始化 # 分组初始化 import pandas as pd df_obj = pd.DataFrame({"key":["C", "B", "C", "A", "B", "B"...在使用agg方法中，还经常使用重置索引+重命名的方式： # 初始化分组DF import pandas as pd df_obj = pd.DataFrame({'a': [0, 1, 2, 3, 4

19.2K2 0

Python面试十问2

五、pandas中的索引操作 pandas⽀持四种类型的多轴索引，它们是: Dataframe.[ ] 此函数称为索引运算符 Dataframe.loc[ ] : 此函数⽤于标签 Dataframe.iloc...DataFrame的索引值保留在附加的DataFrame中，设置ignore_index = True可以避免这种情况。...九、分组（Grouping）聚合 “group by” 指的是涵盖下列⼀项或多项步骤的处理流程：分割：按条件把数据分割成多组；应⽤：为每组单独应⽤函数；组合：将处理结果组合成⼀个数据结构。...先分组，再⽤ sum()函数计算每组的汇总数据多列分组后，⽣成多层索引，也可以应⽤ sum 函数分组后可以使用如sum()、mean()、min()、max()等聚合函数来计算每个组的统计值。...十、数据透视表应用透视表是⼀种可以对数据动态排布并且分类汇总的表格格式，在pandas中它被称作pivot_table。

741 0

python数据科学系列：pandas入门详细教程

切片类型与索引列类型不一致时，引发报错 loc/iloc，最为常用的两种数据访问方法，其中loc按标签值访问、iloc按数字索引访问，均支持单值访问或切片查询。...bool结果，可通过keep参数设置保留第一行/最后一行/无保留，例如keep=first意味着在存在重复的多行时，首行被认为是合法的而可以保留删除重复值，drop_duplicates，按行检测并删除重复的记录...，可通过axis参数设置是按行删除还是按列删除替换，replace，非常强大的功能，对series或dataframe中每个元素执行按条件替换操作，还可开启正则表达式功能 2 数值计算由于pandas...count、value_counts，前者既适用于series也适用于dataframe，用于按列统计个数，实现忽略空值后的计数；而value_counts则仅适用于series，执行分组统计，并默认按频数高低执行降序排列...例如，以某列取值为重整后行标签，以另一列取值作为重整后的列标签，以其他列取值作为填充value，即实现了数据表的行列重整。

13.8K2 0

Pandas图鉴(三)：DataFrames

Polars[2]是Pandas最近的转世（用Rust编写，因此速度更快，它不再使用NumPy的引擎，但语法却非常相似，所以学习 Pandas 后对学习 Polars 帮助非常大。...这个过程如下所示：索引在Pandas中有很多用途：它使通过索引列的查询更快；算术运算、堆叠、连接是按索引排列的；等等。所有这些都是以更高的内存消耗和更不明显的语法为代价的。...，连接要求 "right" 列是有索引的；合并丢弃左边DataFrame的索引，连接保留它；默认情况下，merge执行的是内连接，join执行的是左外连接；合并不保留行的顺序，连接保留它们（有一些限制...比如说：一个解决方案是使用ignore_index=True，它告诉concat在连接后重置行名：在这种情况下，可以将名字列设置为索引。但是对于更复杂的过滤器来说，这就没有什么用了。...首先，你可以只用一个名字来指定要分组的列，如下图所示：如果没有as_index=False，Pandas会把进行分组的那一列作为索引列。

3622 0

数据分组

参数: ①分组键是列名: 单个列名直接写(按一列进行分组),多个列名以列表的形式传入(这就是按多列进行分组)。...""" （1）按一列进行分组 import pandas as pd df = pd.DataFrame([[99,"A类","一线城市","是",6,20,0],...、min 求最小值、median 求中位数、 mode 求众数、var 求方差、std 求标准差、quantile 求分位数（2）按多列进行分组按多列进行分组，只要将多个列名以列表的形式传给...为了接下来对分组结果进行进一步处理与分析，需要把非标准的转化成标准的DataFrame形式，利用的方法是重置索引 reset_index()。...这列进行分类,并进行 df.groupby("客户分类").sum() #对分组后结果重置索引 df.groupby(df["客户分类"]).sum().reset_index()

4.5K1 1

8 个例子帮你快速掌握 Pandas 索引操作

如果您使用Python作为数据处理的语言，那么pandas很可能是你代码中使用最多的库之一。pandas的关键数据结构是DataFrame，这是一个类似电子表格的数据表，由行和列组成。...在处理dataframe时，我们经常需要处理索引，这可能很棘手。在本文中，让我们回顾一些关于用pandas处理索引的技巧。在读取时指定索引列在许多情况下，我们的数据源是一个CSV文件。...在处理DataFrame时，一些操作(如删除行、索引选择)将生成原始索引的子集。...将索引从groupby操作转换为列分组是最常用的方法，让我们通过添加分组列来继续使用在上一步中创建的df0 。...，分组操作后创建的DataFrame就不是您需要的DataFrame了。

9283 0

数据导入与预处理-课程总结-04~06章

header：表示指定文件中的哪一行数据作为DataFrame类对象的列索引，默认为0，即第一行数据作为列索引。...header：表示指定文件中的哪一行数据作为DataFrame类对象的列索引。 names：表示DataFrame类对象的列索引列表。...lsuffix: 左DataFrame中重复列的后缀 rsuffix: 右DataFrame中重复列的后缀 sort: 按字典序对结果在连接键上排序 join方式为按某个相同列进行join: score_df...它们的区别是： df.join() 相同行索引的数据被合并在一起，因此拼接后的行数不会增加(可能会减少)、列数增加； df.merge()通过指定的列索引进行合并，行列都有可能增加;merge也可以指定行索引进行合并...as_index：表示聚合后新数据的索引是否为分组标签的索引，默认为True。 sort：表示是否对分组索引进行排序，默认为True。

13K1 0

30 个小例子帮你快速掌握Pandas

选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...如果我们将groupby函数的as_index参数设置为False，则组名将不会用作索引。 16.带删除的重置索引在某些情况下，我们需要重置索引并同时删除原始索引。...考虑从DataFrame中抽取样本的情况。该示例将保留原始DataFrame的索引，因此我们要重置它。...重设索引，但原始索引保留为新列。我们可以在重置索引时将其删除。...23.分类数据类型默认情况下，分类数据与对象数据类型一起存储。但是，这可能会导致不必要的内存使用，尤其是当分类变量的基数较低时。低基数意味着与行数相比，一列具有很少的唯一值。

10.7K1 0

Pandas进阶｜数据透视表与逆透视

数据基本情况 groupby数据透视表使用 pandas.DataFrame.groupby 函数，其原理如下图所示。...pandas.crosstab 参数 index：指定了要分组的列，最终作为行。 columns：指定了要分组的列，最终作为列。...margins：布尔值，是否分类统计。默认False。 margins_name：分类统计的名称，默认是"All"。 dropna：是否包含全部是NaN的列。默认是True。...保留"driver_gender"，对剩下列全部转换，并给设置对列定义列名。...使用pandas.DataFrame.rename_axis去除columns列的名称 # 第一步，重置索引 df_wide = df_pivot.reset_index() # 重置name，设置为None

4.1K1 1

Pandas非常用技巧汇总

通常我们可以认为groupby后面跟各种aggregation函数（mean, sum, ...）后，我们会得到一个“缩水”的结果，表的行数会变成分组的个数。...a 3 3 b 3 4 a 4 5 b 5 我们按照A列中的分组进行聚合，并对B列进行求和，正常情况下我们会得到一个Series，而A列的内容被加入了索引中。...df.groupby('A')['B'].sum() A a 8 b 10 Name: B, dtype: int64 假设我们希望保留A列的内容，不使其进入索引，以便我们后续进行merge...3, 2, 2, 2]}) df A B 0 a 1 1 a 3 2 a 2 3 a 4 4 a 3 5 b 5 6 b 2 7 b 3 8 b 2 9 b 2 10 b 2 假设我们想知道根据A列分组后...，即 aaa bbb： pd.concat([df]*4).sort_values('A').reset_index(drop=True) # 复制后按A列排序，并重设索引以达到效果 A B 0 a

4445 0

最全面的Pandas的教程！没有之一!

注意，不像 .reset_index() 会保留一个备份，然后才用默认的索引值代替原索引，.set_index() 将会完全覆盖原来的索引值。...清洗数据删除或填充空值在许多情况下，如果你用 Pandas 来读取大量数据，往往会发现原始数据中会存在不完整的地方。...分组统计 Pandas 的分组统计功能可以按某一列的内容对数据行进行分组，并对其应用统计函数，比如求和，平均数，中位数，标准差等等… 举例来说，用 .groupby() 方法，我们可以对下面这数据表按...比如，有这样3个 DataFrame： ? 我们用 pd.concat() 将它堆叠成一个大的表： ? 因为我们没有指定堆叠的方向，Pandas 默认按行的方向堆叠，把每个表的索引按顺序叠加。...，index 表示按该列进行分组索引，而 columns 则表示最后结果将按该列的数据进行分列。

25.8K6 4

小白也能看懂的Pandas实操演示教程(下)

5 pandas实现SQL操作 pandas实现对数据的增删改查增：添加新行或增加新列 dict={'Name':['LiuShunxiang','Zhangshan'], 'Sex':['...改：修改原始记录的值如果发现表中的数据错了，如何更改原来的值呢？尝试结合布尔索引和赋值的方法 student3 ?...利用thresh，保留一些为nan的值行方向上至少有3个非NAN的项保留 df=pd.DataFrame([[1,1,2,np.nan],[3,5,np.nan,np.nan],[13,21,34,np.nan...在列方向上至少保留有3个非NAN的项保留 df=pd.DataFrame([[1,1,2,np.nan],[3,5,np.nan,np.nan],[13,21,34,np.nan],[55,np.nan...8 多层索引的使用接下再讲一个Pandas中的重要功能，那就是多层索引。序列的多层索引类似于Excel中如下形式。 ?

2.4K2 0

Pandas 2.2 中文官方教程和指南（二十·二）

从版本 2.0.0 开始更改：当在分组的 DataFrame 上使用.transform并且转换函数返回一个 DataFrame 时，pandas 现在会将结果的索引与输入的索引对齐。...以 pandas 的Categorical类的实例表示的分类变量可以用作分组键。...当存在具有相同名称的列和索引时，您可以使用key按列分组，使用level按索引分组。...表示为 pandas 的 Categorical 类实例的分类变量可以用作分组键。...当列和索引具有相同的名称时，您可以使用key按列进行分组，并使用level按索引进行分组。

3450 0

pandas 分类数据处理大全（附代码）

比如，人口按性别分为男和女，按年龄分为老、中、少。在计算机语言里，我们通常会用数字来表示，比如用1代表男，0代表女，但是0和1之间并没有大小关系，pandas中用category来表示分类数据。...用category类列分组时，一旦误操作就会发生意外，结果是Dataframe会被填成空值，还有可能直接跑死。。...默认情况下，当按category列分组时，即使数据不存在，pandas也会为该类别中的每个值返回结果。...使用.unstack()会把species索引移到列索引中（类似pivot交叉表的操作）。而当添加的新列不在species的分类索引中时，就会报错。...category列的合并：合并时注意，要保留category类型，且每个dataframe的合并列中的分类类型必须完全匹配。

1.1K2 0

Pandas

，这时就可以借助 df.set_index 方法： drop:Bool,决定将列标签设置为行标签时原来的列标签是否保留 frame = pd.DataFrame({'a': range(7), 'b':...实际上分组后的数据对象 GroupBy 类似 Series 与 DataFrame，是 pandas 提供的一种对象。...利用函数进行分类需要注意的是传入参数是df的行索引，目前我觉得使用这个自定义函数分类的方法主要是使用loc(x,)方法获得所需的列来进行运算分组的操作轴默认为 axis=0,也可以进行调整对于多级标签的对象...= vs.groupby(by='date') #各个特征使用相同的函数统计计算 print('汽车销售数据表按日期分组后前5组每组的数量为：\n', vsGroup.count().head...[a > np.mean(a)] = None print(a) 转换数据–哑变量处理（Index/dummy Variables）当特征为分类型时，例如职业、学历、血型、疾病严重程度等等，通常会将原始的多分类变量转化为数值型

9.1K3 0

Pandas 25 式

目录查看 pandas 及其支持项的版本创建 DataFrame 重命名列反转行序反转列序按数据类型选择列把字符串转换为数值优化 DataFrame 大小用多个文件建立 DataFrame...~ 按行用多个文件建立 DataFrame ~ 按列从剪贴板创建 DataFrame 把 DataFrame 分割为两个随机子集根据多个类别筛选 DataFrame 根据最大的类别筛选 DataFrame...把 continent 列改为 category 数据类型后，DataFrame 对内存的占用进一步缩减到 2.4 KB。...把每个 CSV 文件读取成 DataFrame，合并后，再删除导入的原始 DataFrame，但这种方式占用内存太多，而且要写很多代码。使用 Python 内置的 glob 更方便。 ?...通过赋值语句，把这两列添加到原 DataFrame。 ? 如果想分割字符串，但只想保留分割结果的一列，该怎么操作？ ? 要是只想保留城市列，可以选择只把城市加到 DataFrame 里。 ?

8.4K0 0

Pandas GroupBy 深度总结

例如，在我们的案例中，我们可以按奖项类别对诺贝尔奖的数据进行分组： grouped = df.groupby('category') 也可以使用多个列来执行数据分组，传递一个列列表即可。...它们都返回一个字典，其中键是创建的组，值是原始 DataFrame 中每个组的实例的轴标签列表（对于组属性）或索引（对于索引属性）： grouped.indices Output: {'Chemistry...，其中组名作为其新索引，每个数字列的平均值作为分组我们可以直接在 GroupBy 对象上应用其他相应的 Pandas 方法，而不仅仅是使用 agg() 方法。...，其形状和索引与原始 DataFrame 相同，但具有转换后的各个值。...在我们的 DataFrame 的情况下，让我们过滤掉所有组均值小于 7,000,000 的prizeAmountAdjusted 列，并在输出中仅保留该列： grouped['prizeAmountAdjusted

5.8K4 0

pandas 8 个常用的 index 设置

使用现有的 DataFrame 设置索引当然，如果已经读取数据或做完一些数据处理步骤后，我们可以通过set_index手动设置索引。...df.set_index(“date”, inplace=True) 如果要保留将要被设置为索引的列，可以设置drop=False。...一些操作后重置索引在处理 DataFrame 时，某些操作（例如删除行、索引选择等）将会生成原始索引的子集，这样默认的数字索引排序就乱了。如要重新生成连续索引，可以使用reset_index方法。...同样，如果要就地重置索引，可设置inplace参数为True，否则将创建一个新的 DataFrame。 4. 将索引从 groupby 操作转换为列 groupby分组方法是经常用的。...但是很多情况下，我们不希望分组列变成索引，因为可能有些计算或者判断逻辑还是需要用到该列的。因此，我们需要设置一下让分组列不成为索引，同时也能完成分组的功能。

2262 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭