Pandas组按组的所有值之和分组，另一列以逗号分隔

Pandas是一个开源的数据分析和数据处理工具，它提供了丰富的数据结构和数据操作函数，可以方便地进行数据清洗、转换、分析和可视化等操作。

在Pandas中，可以使用groupby函数对数据进行分组操作。对于给定的数据集，我们可以根据某一列或多列的值进行分组，并对每个分组进行聚合操作，例如求和、计数、平均值等。

对于给定的数据集df，我们可以按照某一列进行分组，并对另一列的值进行求和，并将结果以逗号分隔的形式存储在新的列中，可以使用如下代码实现：

import pandas as pd

# 创建示例数据集
data = {'Group': ['A', 'A', 'B', 'B', 'A'],
        'Value': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 按Group列进行分组，并对Value列进行求和
grouped = df.groupby('Group')['Value'].sum()

# 将求和结果以逗号分隔的形式存储在新的列中
df['Sum'] = df.groupby('Group')['Value'].transform(lambda x: ','.join(map(str, x)))

# 打印结果
print(df)

运行以上代码，输出结果如下：

  Group  Value  Sum
0     A      1  1,2,5
1     A      2  1,2,5
2     B      3    3,4
3     B      4    3,4
4     A      5  1,2,5

在上述代码中，首先创建了一个示例数据集df，包含两列Group和Value。然后使用groupby函数按Group列进行分组，并对每个分组的Value列进行求和，得到了一个Series对象grouped。接着使用transform函数将每个分组的求和结果以逗号分隔的形式存储在新的列Sum中。

需要注意的是，以上代码中并没有提及腾讯云的相关产品，因为在Pandas的使用过程中，并不涉及到云计算领域的特定产品。Pandas是一个本地的数据处理工具，可以在本地环境中使用，不依赖于特定的云计算平台。

相关·内容

vba新姿势，如何让vba的数据处理超越Python

如下数据：按列1，列2 分组，每组数据输出也好，统计也行 vba中实现这个有许多方式，我就用最常用的一种方式，数组+字典：这里使用 "|" 连接多个作为 key 其实是不合理的做法，要避免..._性别") ，就是分组+处理参数1自然是数据数组参数2是分组列，4表示第4列参数3是每个组的处理逻辑，执行时，每一组"性别"的数据就会传入自定义方法中执行红框方法中，xdf 参数实际也是一个二维数组...分组关键列vba用的是列号，这只是我偷懒，实际可以改造成支持列名指定而 pandas 代码自带输出表头，vba实际也能做到可以说，代码上的多余表达两者都非常少，这需求可以说打个平手那么，可不可以做成多关键列分组...---- 需求2：按 "性别"、"船舱等级"，把数据拆分到不同的工作表，工作表名字使用"性别(值)，船舱等级(值)" 先看 pandas ：再看vba：与之前需求变动非常少，因为本身需求表达变动也不多...代码就不应该有很大的区别 groupby_apply 的参数2，使用英文逗号分隔指定列号即可多关键列分组对比结果也与前一个需求一样，打个平手。

3K1 0

Pandas必会的方法汇总，建议收藏！

举例：按索引提取单行的数值 df_inner.loc[3] 四、DataFrame选取和重新组合数据的方法序号方法说明 1 df[val] 从DataFrame选取单列或一组列；在特殊情况下比较便利...通过行和列标签选取单一值举例：使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。...方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。...举例：判断city列的值是否为北京 df_inner['city'].isin(['beijing']) 七、分组的方法序号方法说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...默认分隔符为逗号 2 read_table 从文件、URL、文件型对象中加载带分隔符的数据。

4.7K4 0

七步搞定一个综合案例，掌握pandas进阶用法！

注意到prod_name包含的信息较多，逗号前是英文和中文名称，逗号后是一些补充信息，我们使用split把它分隔开，因为分割出来是两个字段，所以要写成下面的形式，注意最后要加上str。...为了验证结果，我们取出city='杭州'，sub_cate='用品'的所有样本进行查看，这里用到了pandas多条件筛选数据操作。...各组内按销售数量(或百分比)做降序。这里的排序有两个层次的含义，第一种是组内实际顺序不变，只给一个排序编号。代码如下所示，method=first是保证序号是连续且唯一的。...上图第三列就是我们需要的目标group_rank值，注意先要把默认的名字改过来，并将此结果与原始数据做一个合并。在此基础上，就可以将每组内不超过目标group_rank值的行筛选出来。...6.分组拼接在上一步筛选出了目标行，未达到最终目标，还需将每个分组内所有符合条件的产品名称拼接起来，并用逗号隔开。这里采用分组对字符串求和的方式来实现。

2.4K4 0

Pandas必会的方法汇总，数据分析必备！

举例：按索引提取单行的数值 df_inner.loc[3] 四、DataFrame选取和重新组合数据的方法序号方法说明 1 df[val] 从DataFrame选取单列或一组列；在特殊情况下比较便利...9 reindex 通过标签选取行或列 10 get_value 通过行和列标签选取单一值 11 set_value 通过行和列标签选取单一值举例：使用iloc按位置区域提取数据 df_inner.iloc...DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。...举例：判断city列的值是否为北京 df_inner['city'].isin(['beijing']) 七、分组的方法序号方法说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...默认分隔符为逗号 2 read_table 从文件、URL、文件型对象中加载带分隔符的数据。

5.9K2 0

10招！看骨灰级Pythoner如何玩转Python

但如果你要读取很大的数据，尝试添加这个参数：nrows = 5，以便在实际加载整个表之前仅读取表的一小部分。然后你可以通过选择错误的分隔符来避免错误（它不一定总是以逗号分隔）。...你可以先查看 df.dtypes.value_counts（） # 命令分发的结果以了解数据帧的所有可能数据类型，然后执 df.select_dtypes（include = [ float64 ， int64...Percentile groups 你有一个数字列，并希望将该列中的值分类为组，例如将列的前5％，分为组1，前5-20％分为组2，前20％-50％分为组3，最后50％分为组4。...另一个技巧是处理混合在一起的整数和缺失值。如果列同时包含缺失值和整数，则数据类型仍将是float而不是int。导出表时，可以添加float_format = ％。0f 将所有浮点数舍入为整数。...如果只想要所有列的整数输出，请使用此技巧，你将摆脱所有令人苦恼的 .0 。

2.3K3 0

涨姿势！看骨灰级程序员如何玩转Python

但如果你要读取很大的数据，尝试添加这个参数：nrows = 5，以便在实际加载整个表之前仅读取表的一小部分。然后你可以通过选择错误的分隔符来避免错误(它不一定总是以逗号分隔)。...你可以先查看 df.dtypes.value_counts（）命令分发的结果以了解数据帧的所有可能数据类型，然后执行 df.select_dtypes（include = ['float64'，'int64...D. df['c'].value_counts().reset_index().sort_values(by='index') : 显示按值而不是按计数排序的统计数据。 7....Percentile groups 你有一个数字列，并希望将该列中的值分类为组，例如将列的前5%，分为组1，前5-20%分为组2，前20%-50%分为组3，最后50%分为组4。...如果只想要所有列的整数输出，请使用此技巧，你将摆脱所有令人苦恼的'.0'。

2.3K2 0

Python pandas十分钟教程

import pandas as pd pandas在默认情况下，如果数据集中有很多列，则并非所有列都会显示在输出显示中。....unique()：返回'Depth'列中的唯一值 df.columns：返回所有列的名称选择数据列选择：如果只想选择一列，可以使用df['Group']....基本使用方法如下： df.loc[:,['Contour']]：选择'Contour'列的所有数据。其中单冒号:选择所有行。在逗号的左侧，您可以指定所需的行，并在逗号的右侧指定列。...下面的代码将平方根应用于“Cond”列中的所有值。 df['Cond'].apply(np.sqrt) 数据分组有时我们需要将数据分组来更好地观察数据间的差异。...Pandas中提供以下几种方式对数据进行分组。下面的示例按“Contour”列对数据进行分组，并计算“Ca”列中记录的平均值，总和或计数。

9.8K5 0

利用 Python 分析 MovieLens 1M 数据集

随机选择用户以包含在内。所有选定的用户评分至少20部电影。不包括人口统计信息。每个用户都由一个id表示，并且不提供其他信息。...https://doi.org/10.1145/2827872 文件的内容和使用 ======================== 格式化和编码数据集文件以[逗号分隔值]文件写入，并带有单个标题行...包含逗号（，）的列使用双引号（```）进行转义。这些文件编码为UTF-8。....loc或基于位置的索引.iloc 2.4 按性别计算每部电影的平均得分可通过数据透视表(pivot_table)实现该操作产生了另一个DataFrame，输出内容为rating列的数据，行标...并且用unstack函数将数据转换为一个表格，每一行为电影名称，每一列为年龄组，值为该年龄组的用户对该电影的平均评分。

1.5K3 0

这个远古的算法竟然可以！

这不是巧合；我们构造半列的方式意味着这个2的幂之和表达式中的指数，恰好总是奇数值的行号。把这些行对应的倍列值相加，其实就是18乘以2的幂之和，这个幂之和刚好等于89，即18和89。...这两组数字（having 和 doubling）一开始是独立的列表（list），打包后转换为一个pandas数据框，然后作为两个对齐列存储在表5那样的表中。...使用 loc 时，在它后面的方括号中指定我们想要选择的行和列。在方括号内按顺序指定行和列，用逗号分隔，格式是[行, 列]。...用 half_double[0]指定半列，半列的索引为 0；用%2 == 1 指定奇数；在逗号之后使用冒号指定所有列，这是得到所有列的一种快捷方式。...最后，对剩下的倍列进行简单加和： answer = sum(half_double.loc[:,1]) 这里我们又用到了 loc。在方括号内使用冒号指定所有行，逗号后面指定索引为1的倍列。

1.5K3 0

python数据分析笔记——数据加载与整理

5、文本中缺失值处理，缺失数据要么是没有（空字符串），要么是用某个标记值表示的，默认情况下，pandas会用一组经常出现的标记值进行识别，如NA、NULL等。查找出结果以NAN显示。...7、对于不是使用固定分隔符分割的表格，可以使用正则表达式来作为read_table的分隔符。（’\s+’是正则表达式中的字符）。...当没有指明用哪一列进行连接时，程序将自动按重叠列的列名进行连接，上述语句就是按重叠列“key”列进行连接。也可以通过on来指定连接列进行连接。...也可以使用字典的形式来进行替换。（2）离散化或面元划分，即根据某一条件将数据进行分组。利用pd.cut（）方式对一组年龄进行分组。默认情况下，cut对分组条件的左边是开着的状态，右边是闭合状态。...利用drop_duplicates方法，可以返回一个移除了重复行的DataFrame. 默认情况下，此方法是对所有的列进行重复项清理操作，也可以用来指定特定的一列或多列进行。

6K8 0

pandas分组聚合转换

，其中字典以列名为键，以聚合字符串或字符串列表为值 gb.agg({'Height':['mean','max'], 'Weight':'count'}) 使用自定义函数在agg中可以使用具体的自定义函数...mean（聚合值）值进行计算，列数与原来一样: 可以看出条目数没有发生变化：对身高和体重进行分组标准化，即减去组均值后除以组的标准差： gb.transform(lambda x: (x-x.mean...'new_column'，其值为'column1'中每个元素的两倍，当原来的元素大于10的时候，将新列里面的值赋0 import pandas as pd data = {'column1':[1...题目：请创建一个两列的DataFrame数据，自定义一个lambda函数用来两列之和，并将最终的结果添加到新的列'sum_columns'当中 import pandas as pd data =...当apply()函数与groupby()结合使用时，传入apply()的是每个分组的DataFrame。这个DataFrame包含了被分组列的所有值以及该分组在其他列上的所有值。

871 0

Python数据分析及可视化-小测验

读取datasets目录下chipo.csv并显示前十行数据（赋值给变量chipo） csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写sep关键字...读取datasets目录下special_top250.csv并显示前五行数据（赋值给变量top250） csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写...] tags = ['偏短','标准','正常','偏长','超长'] 2.5 第五步：具体显示每个分组下的电影数量在pandas官网中查询pandas.cut函数中的参数，其中参数bins是数据区间分割值...文件数据，并显示前五行记录 csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写sep关键字。...组合散点图.png 3.6 第六步：在同一图中绘制出女性与男性中吸烟与不吸烟顾客的消费金额与小费之间的散点图关系在有2组散点的散点图当中，第1组散点默认为橘黄色，第2组散点默认为天蓝色。

2.1K2 0

数据库SQL语句大全——最常用的SQL语句

,pname FROM product ORDER BY market_price,pname 按多个列排序时，排序列之间用,隔开，并且按列的顺序来排序数据，先排价格，后排名称指定排序方向降序排序...BY pname CONCAT()需要一个或多个指定的串，各个串之间用逗号分隔。...MIN() 返回某列的最小值 SUM() 返回某列值之和 SELECT AVG(market_price) FROM product SELECT MAX(market_price) FROM product...COUNT(*)>2 HAVING和WHERE的差别这里有另一种理解方法，WHERE在数据分组前进行过滤，HAVING在数据分组后进行过滤。...SELECT语句的执行顺序 SELECT 要返回的列或表达式是 FROM 从中检索数据的表仅在从表选择数据时使用 WHERE 行级过滤否 GROUP BY 分组说明仅在按组计算聚集时使用 HAVING

2.9K3 0

利用 Python 分析 MovieLens 1M 数据集

随机选择用户以包含在内。所有选定的用户评分至少20部电影。不包括人口统计信息。每个用户都由一个id表示，并且不提供其他信息。...https://doi.org/10.1145/2827872 文件的内容和使用 ======================== 格式化和编码 ----------------------- 数据集文件以逗号分隔值文件写入...包含逗号（，）的列使用双引号（`）进行转义。这些文件编码为UTF-8。...可用pandas.merge 将所有数据都合并到一个表中。...并且用unstack函数将数据转换为一个表格，每一行为电影名称，每一列为年龄组，值为该年龄组的用户对该电影的平均评分。

4.5K1 1

Pandas速查卡-Python数据科学

) 所有列的唯一值和计数选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...pd.notnull() 与pd.isnull()相反 df.dropna() 删除包含空值的所有行 df.dropna(axis=1) 删除包含空值的所有列 df.dropna(axis=1,thresh...) 将col1按升序排序，然后按降序排序col2 df.groupby(col) 从一列返回一组对象的值 df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1...)[col2] 返回col2中的值的平均值，按col1中的值分组（平均值可以用统计部分中的几乎任何函数替换） df.pivot_table(index=col1,values=[col2,col3],aggfunc...=max) 创建一个数据透视表，按col1分组并计算col2和col3的平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组的所有列的平均值 data.apply(

9.2K8 0

Hive SQL 常用零碎知识

以下是这两个函数的主要区别：CONCAT_WS（With Separator）：用于在连接字符串时添加分隔符。您需要提供一个分隔符，并将分隔符应用在一组要连接的字符串之间。...，以简化构建逗号分隔值、路径等的过程。...而 CONCAT 仅按顺序连接字符串，而不考虑分隔符。根据所需的输出格式，选择合适的函数以方便地连接字符串。 6. NVL()函数NVL()函数是空值判断函数，空值为NULL的空值。...当您将数据按owner和primary_key分组后，由于ORDER BY作用于整个结果集，无法保证每个分组内的clk_time顺序。...然后我们用ARRAY_JOIN函数将列表中的元素连接成一个字符串，并用逗号隔开。这样，可以在Presto上按clk_time从小到大将feature_val变成一行并用逗号隔开。

6726 0

SQL命令 GROUP BY

GROUP BY field {,field2} 参数 field - 从其中检索数据的一个或多个字段。单个字段名或以逗号分隔的字段名列表。...指定字段 GROUP BY子句最简单的形式指定单个字段，如GROUP BY City。这将为每个惟一的City值选择任意一行。还可以指定以逗号分隔的字段列表，将其组合值视为单个分组术语。...但是，如果在逗号分隔的列表中指定一个字面值作为字段值，则该字面值将被忽略，并且GROUP BY将为指定字段名的每个惟一组合选择任意一行。...SELECT %EXACT(Home_City) FROM Sample.Person GROUP BY Home_City /*将Home_City值按其大写字母值组合在一起将返回以原始字母大小写表示的分组城市的名称...带有GROUP BY子句的SELECT语句返回所做的所有数据修改，无论它们是否已提交。示例下面的示例按名称的首字母对名称进行分组。它返回首字母、共享该首字母的姓名计数以及一个Name值的示例。

3.8K3 0

Pandas图鉴(一)：Pandas vs Numpy

MultiIndex 我们将拆分成四个部分，依次呈现～建议关注和星标@公众号：数据STUDIO，精彩内容等你来～ Part 1 Motivation 假设你有一个文件，里面有一百万行逗号分隔的数值，像这样...NumPy数组是同质类型的（=所有的值都有相同的类型），所以所有的字段都会被解译为字符串，在比大小方面也不尽人意。...1.Sorting 用Pandas按列排序更有可读性，你可以看到如下：这里argsort(a[:,1])计算了使a的第二列以升序排序的排列方式，然后外部的a[...]相应地重新排列a的行。...5.按列连接如果想用另一个表的信息来补充一个基于共同列的表，NumPy几乎没有用。而Pandas更好，特别是对于1:n的关系。...Pandas连接有所有熟悉的 inner, left, right, 和 full outer 连接模式。 6.按列分组数据分析中另一个常见的操作是按列分组。

2105 0

Pandas速查手册中文版

数据选取 df[col]：根据列名，并以Series的形式返回列 df[[col1, col2]]：以DataFrame形式返回多列 s.iloc[0]：按位置选取数据 s.loc['index_one...df.dropna(axis=1)：删除所有包含空值的列 df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行 df.fillna(x)：用x替换DataFrame对象中所有的空值...([col1,col2])：返回一个按多列进行分组的Groupby对象 df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值 df.pivot_table(index...=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表 df.groupby(col1).agg(np.mean...)：返回按列col1分组的所有列的均值 data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean data.apply(np.max,axis=1)：对DataFrame

12.1K9 2

esproc vs python 4

，并将该列命名为y，m，同时计算该组的销售量 group()函数分组但不汇总，groups分组同时汇总。...df.groupby(by,as_index)按照某个字段或者某几个字段进行分组,其中参数as_index=False是否返回以组标签为索引的对象。...求得所有交易额的一半的值，循环Amount字段，找到累加之和大于或等于交易额一半的位置。取Client字段0到该位置的值组成一个Series。...A3中 A7: A.pivot(g,…;F,V;Ni:N'i,…)，以字段/表达式g为组，将每组中的以F和V为字段列的数据转换成以Ni和N'i为字段列的数据，以实现行和列的转换。...另外python中的merge函数不支持差集计算（或许其他函数支持），造成在第四例中特别麻烦。python pandas的dataframe结构是按列进行存储的，按行循环时就显得特别麻烦。

1.9K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pandas组按组的所有值之和分组，另一列以逗号分隔

相关·内容

vba新姿势，如何让vba的数据处理超越Python

Pandas必会的方法汇总，建议收藏！

七步搞定一个综合案例，掌握pandas进阶用法！

Pandas必会的方法汇总，数据分析必备！

10招！看骨灰级Pythoner如何玩转Python

涨姿势！看骨灰级程序员如何玩转Python

Python pandas十分钟教程

利用 Python 分析 MovieLens 1M 数据集

这个远古的算法竟然可以！

python数据分析笔记——数据加载与整理

pandas分组聚合转换

Python数据分析及可视化-小测验

数据库SQL语句大全——最常用的SQL语句

利用 Python 分析 MovieLens 1M 数据集

Pandas速查卡-Python数据科学

Hive SQL 常用零碎知识

SQL命令 GROUP BY

Pandas图鉴(一)：Pandas vs Numpy

Pandas速查手册中文版

esproc vs python 4

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐