开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对DataFrame进行分组，计算一列中出现的次数，将其他列值放入集合中

，可以使用Pandas库来实现。

首先，我们需要导入Pandas库：

import pandas as pd

然后，我们可以创建一个DataFrame对象，假设我们有一个包含两列数据的DataFrame，列名分别为"column1"和"column2"：

data = {'column1': ['A', 'B', 'A', 'B', 'A'],
        'column2': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

接下来，我们可以使用groupby()函数对"column1"列进行分组，并使用size()函数计算每个分组中出现的次数：

grouped = df.groupby('column1').size()

此时，grouped是一个Series对象，包含了每个分组中"column1"列值出现的次数。

最后，我们可以使用apply()函数将其他列的值放入集合中。首先，我们定义一个函数来处理每个分组：

def collect_values(group):
    return set(group['column2'])

然后，我们可以使用apply()函数将该函数应用到每个分组上：

result = grouped.apply(lambda x: collect_values(df[df['column1'] == x]))

现在，result是一个Series对象，其中每个分组的值是一个集合，包含了该分组中"column2"列的所有值。

完整的代码如下：

import pandas as pd

data = {'column1': ['A', 'B', 'A', 'B', 'A'],
        'column2': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

grouped = df.groupby('column1').size()

def collect_values(group):
    return set(group['column2'])

result = grouped.apply(lambda x: collect_values(df[df['column1'] == x]))

print(result)

以上就是对DataFrame进行分组，计算一列中出现的次数，将其他列值放入集合中的方法。对于腾讯云相关产品和产品介绍链接地址，可以参考腾讯云官方文档或咨询腾讯云的客服人员获取更详细的信息。

相关搜索:Pandas DataFrame:根据其他列中的值操作一列中的值 Pandas:根据另一列中的值对两列进行分组 Pandas用于将列分组到列表中并对出现次数进行计数 Python Pandas dataframe:如何对不同列中的值进行分组在Python Dataframe中对邻近列值进行分组基于条件对dataframe列中的值进行分组如何在Panda中对一列中的值进行分组，并在另一列中获取相应的值？如何对一列中其他元素的平均值进行分组、求和和计算？如何将包含其他列中的值出现次数的列附加到现有的Dataframe？如何计算列dataframe Python中的出现次数

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

独家 | 11个Python Pandas小技巧让你的工作更高效（附代码实例）

你想要检查下“c”列中出现的值以及每个值所出现的频率，可以使用： df['c'].value_counts( 下面是一些有用的小技巧/参数： normalize = True:查看每个值出现的频率而不是频次数...dropna = False: 把缺失值也保留在这次统计中。 sort = False: 将数据按照值来排序而不是按照出现次数排序。...df[‘c].value_counts().reset_index(): 将这个统计表转换成pandas的dataframe并且进行处理。 8....基于分位数分组面对一列数值，你想将这一列的值进行分组，比如说最前面的5%放入组别一，5-20%放入组别二，20%-50%放入组别三，最后的50%放入组别四。...翻译组招募信息工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

6722 0

【技巧】11 个 Python Pandas 小技巧让你更高效

加入这些参数的另一大好处是，如果这一列中同时含有字符串和数值类型，而你提前声明把这一列看作是字符串，那么这一列作为主键来融合多个表时，就不会报错了。...你想要检查下“c”列中出现的值以及每个值所出现的频率，可以使用： df[ c ].value_counts( 下面是一些有用的小技巧/参数： normalize = True:查看每个值出现的频率而不是频次数...dropna = False: 把缺失值也保留在这次统计中。 sort = False: 将数据按照值来排序而不是按照出现次数排序。...df[‘c].value_counts().reset_index(): 将这个统计表转换成pandas的dataframe并且进行处理。 8....基于分位数分组面对一列数值，你想将这一列的值进行分组，比如说最前面的5%放入组别一，5-20%放入组别二，20%-50%放入组别三，最后的50%放入组别四。

9624 0

收藏 | 11个Python Pandas小技巧让你的工作更高效（附代码实例）

加入这些参数的另一大好处是，如果这一列中同时含有字符串和数值类型，而你提前声明把这一列看作是字符串，那么这一列作为主键来融合多个表时，就不会报错了。...你想要检查下“c”列中出现的值以及每个值所出现的频率，可以使用： df['c'].value_counts( 下面是一些有用的小技巧/参数： normalize = True:查看每个值出现的频率而不是频次数...dropna = False: 把缺失值也保留在这次统计中。 sort = False: 将数据按照值来排序而不是按照出现次数排序。...df[‘c].value_counts().reset_index(): 将这个统计表转换成pandas的dataframe并且进行处理。 8....基于分位数分组面对一列数值，你想将这一列的值进行分组，比如说最前面的5%放入组别一，5-20%放入组别二，20%-50%放入组别三，最后的50%放入组别四。

1.2K3 0

最全面的Pandas的教程！没有之一!

我们可以用加减乘除（+ - * /）这样的运算符对两个 Series 进行运算，Pandas 将会根据索引 index，对响应的数据进行计算，结果将会以浮点数的形式存储，以避免丢失精度。 ?...的索引值类似地，我们还可以用 .set_index() 方法，将 DataFrame 里的某一列作为索引来用。...分组统计 Pandas 的分组统计功能可以按某一列的内容对数据行进行分组，并对其应用统计函数，比如求和，平均数，中位数，标准差等等… 举例来说，用 .groupby() 方法，我们可以对下面这数据表按...上面的结果中，Sales 列就变成每个公司的分组平均数了。计数用 .count() 方法，能对 DataFrame 中的某个元素出现的次数进行计数。 ?...，index 表示按该列进行分组索引，而 columns 则表示最后结果将按该列的数据进行分列。

25.8K6 4

esproc vs python 4

A4：按照月份m进行排序 A5:新增一列，如果月份等于前一行的月份，则计算增长比并赋值，否则赋值null，将该列命名为yoy。...df.sort_values()将新的dataframe按照月份和年份进行分组.新建一个数组，准备存放计算出来的同期增长比。...A4：按照STOCKID和DATE分组，同时对各组进行计算，if(x,true,false),这里是如果INDICATOR==ISSUE,if()函数等于QUANTITY的值，否则为0，将此结果在该组中求和后添加到字段...将这个dataframe放入初始化的subject_mark_cnt_list列表中。...另外python中的merge函数不支持差集计算（或许其他函数支持），造成在第四例中特别麻烦。python pandas的dataframe结构是按列进行存储的，按行循环时就显得特别麻烦。

1.9K1 0

Pandas常用命令汇总，建议收藏！

False]) # 按单列对DataFrame进行分组并计算另一列的平均值 grouped_data = df.groupby('column_name')['other_column'].mean...() # 按多列对DataFrame进行分组并计算另一列的总和 grouped_data = df.groupby(['column_name1', 'column_name2'])['other_column...统计列中非空值的个数 count = df['column_name'].count() # 对DataFrame进行分组并重置索引 grouped_data = df.groupby('column_name...# 将df中的行添加到df2的末尾 df.append(df2) # 将df中的列添加到df2的末尾 pd.concat([df, df2]) # 对列A执行外连接 outer_join = pd.merge...# 计算某列的最大值 df['column_name'].max() # 计算某列中非空值的数量 df['column_name'].count() # 计算列中某个值的出现次数 df['column_name

3631 0

Python 学习小笔记

，列表里面只有TRUE 和 FALSE，如果该值是空那就是TRUE 寻找每一种数据的出现次数用data[‘name’].value_counts() 针对ordinary、norminal、binary...可用对数据分组进行计算，比如计算分组的平均数等有点类似于数据库中的groupby计算，涉及至少两列数据，用法有两种(例要对列A根据列B进行分组并计算平均值) 1....对整个dataframe进行groupby，然后访问列A的mean() >>>data.groupby(['B'])['A'].mean() dataframe中axis的意义这里有一篇博客说的很详细...使用0值表示沿着每一列或行标签\索引值向下执行方法使用1值表示沿着每一行或者列标签模向执行对应的方法定位符合某个条件的数据(在处理缺失数据时十分有用) data.loc[行条件，列条件]...==1] 显示所有符合data.Survived的值是1的数据(包括其他属性的) 替换数据方法DataFrame.replace(to_replace=None, value=None, inplace

9653 0

python数据分析——Python数据分析模块

第一列是数据的索引，第二列是数据 2.1Pandas数据结构之Series 当Series数组元素为数值时，可以使用Series对象的describe方法对Series数组的数值进行分析 2.2 Pandas...数据结构之DataFrame 如果把Series看作Excel表中的一列，DataFrame就是Excel的一张工作表。...的值设置为1时，获得各行的平均值/中位数 info（）对所有数据进行简述 isnull（）检测空值，返回一个元素类型为布尔值的DataFrame，当出现空值时返回True，否则返回False dropna...() 删除数据集合中的空值 value_counts 查看某列各值出现次数 count（）对符合条件的统计次数 sort_values() 对数据进行排序，默认升序 sort_index() 对索引进行排序...，默认升序 group_by 对符合条件的数据进行分组统计三、其他模块 3.1Matplotlib/Seaborn模块在数据分析流程中,结果呈现是非常重要的步骤。

1821 0

Pandas进阶修炼120题｜第二期

答案 df.head() 23 数据计算题目：将salary列数据转换为最大值与最小值的平均值难度：⭐⭐⭐⭐ 期望输出 ?...\d*",str1) salary = ((int(k[0]) + int(k[1]))/2)*1000 df.ix[i,2] = salary 24 数据分组题目：将数据根据学历进行分组并计算平均薪资...] 35 数据处理题目：将df的第一列与第二列合并为新的一列难度：⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理题目：将...生成新的一列new为salary列减去之前生成随机数列难度：⭐⭐ 答案 df["new"] = df["salary"] - df[0] 45 缺失值处理题目：检查数据中是否含有任何缺失值难度：⭐...47 数据计算题目：计算salary大于10000的次数难度：⭐⭐ 答案 len(df[df['salary']>10000]) 48 数据统计题目：查看每种学历出现的次数难度：⭐⭐⭐ 期望输出

8533 0

Pandas图鉴(三)：DataFrames

为了使其发挥作用，这两个DataFrame需要有（大致）相同的列。这与NumPy中的vstack类似，你如下图所示：在索引中出现重复的值是不好的，会遇到各种各样的问题。...就像原来的join一样，on列与第一个DataFrame有关，而其他DataFrame是根据它们的索引来连接的。插入和删除由于DataFrame是一个列的集合，对行的操作比对列的操作更容易。...首先，你可以只用一个名字来指定要分组的列，如下图所示：如果没有as_index=False，Pandas会把进行分组的那一列作为索引列。...要将其转换为宽格式，请使用df.pivot：这条命令抛弃了与操作无关的东西（即索引和价格列），并将所要求的三列信息转换为长格式，将客户名称放入结果的索引中，将产品名称放入其列中，将销售数量放入其 "...在上面的例子中，所有的值都是存在的，但它不是必须的：对数值进行分组，然后对结果进行透视的做法非常普遍，以至于groupby和pivot已经被捆绑在一起，成为一个专门的函数（和一个相应的DataFrame

3512 0

Pandas进阶修炼120题｜第二期

答案 df.head() 23 数据计算题目：将salary列数据转换为最大值与最小值的平均值难度：⭐⭐⭐⭐ 期望输出 ?...\d*",str1) salary = ((int(k[0]) + int(k[1]))/2)*1000 df.ix[i,2] = salary 24 数据分组题目：将数据根据学历进行分组并计算平均薪资...] 35 数据处理题目：将df的第一列与第二列合并为新的一列难度：⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理题目：将...生成新的一列new为salary列减去之前生成随机数列难度：⭐⭐ 答案 df["new"] = df["salary"] - df[0] 45 缺失值处理题目：检查数据中是否含有任何缺失值难度：⭐...47 数据计算题目：计算salary大于10000的次数难度：⭐⭐ 答案 len(df[df['salary']>10000]) 48 数据统计题目：查看每种学历出现的次数难度：⭐⭐⭐ 期望输出

8330 0

Pandas中实现聚合统计，有几种方法？

01 value_counts 上述需求是统计各国将领的人数，换言之就是在上述数据集中统计各个国家出现的次数。所以实现这一目的只需简单的对国家字段进行计数统计即可： ?...进一步的，其具体实现形式有两种：分组后对指定列聚合，在这种形式中依据country分组后只提取name一列，相当于每个country下对应了一个由多个name组成的series，而后的count即为对这个...此时，依据country分组后不限定特定列，而是直接加聚合函数count，此时相当于对列都进行count，此时得到的仍然是一个dataframe，而后再从这个dataframe中提取对特定列的计数结果。...值得指出，在此例中country以外的其他列实际上也是只有name一列，但与第一种形式其实也是不同的，具体在于未加提取name列之前，虽然也是只有name一列，但却还是一个dataframe： ?...而后，groupby后面接的apply函数，实质上即为对每个分组下的子dataframe进行聚合，具体使用何种聚合方式则就看apply中传入何种参数了！

3K6 0

Pandas三百题

()) 17-缺失值补全|匹配填充现在填充 “语言” 列的缺失值，要求根据 “国家/地区” 列的值进行填充例如《海上钢琴师》国家/地区为意大利，根据其他意大利国家对应的语言来看，应填充为意大利语...sns.set(font='Songti SC') sns.heatmap(df.corr().round(2),annot=True,cmap='RdBu') plt.show() 15-统计信息|频率计算各省市出现的次数...｜频率计算不同行政区(district)，不同规模公司(companySize)出现的次数 df.groupby(['district','companySize']).size() 5 - 分组统计...groupby(len)['salary'].mean() 12 - 分组规则｜通过字典将 score 和 matchScore 的和记为总分，与 salary 列同时进行分组，并查看结果 df.groupby...将 df1 的索引设置为日期，将 df1 数据向后移动一天 df1.set_index(['日期']).shift(1) 25 - 日期重采样｜日 -> 周按周对 df1 进行重采样，保留每周最后一个数据

4.6K2 2

Spark Extracting,transforming,selecting features

，下面是粗略的对算法分组：提取：从原始数据中提取特征；转换：缩放、转换、修改特征；选择：从大的特征集合中选择一个子集；局部敏感哈希：这一类的算法组合了其他算法在特征转换部分（LSH最根本的作用是处理海量高维数据的最近邻...，实际就是将字符串与数字进行一一对应，不过这个的对应关系是字符串频率越高，对应数字越小，因此出现最多的将被映射为0，对于未见过的字符串标签，如果用户选择保留，那么它们将会被放入数字标签中，如果输入标签是数值型...个列组合转成一个vector列的转换器，一般用户对原始特征的组合或者对其他转换器输出的组合，对于模型训练来说，通常都需要先对原始的各种类别的，包括数值、bool、vector等特征进行VectorAssembler...，可以通过均值或者中位数等对指定未知的缺失值填充，输入特征需要是Float或者Double类型，当前Imputer不支持类别特征和对于包含类别特征的列可能会出现错误数值；注意：所有输入特征中的null..., 0.0, 15.0, 0.1] 0.0 如果我们使用ChiSqSelector，指定numTopFeatures=1，根据标签列clicked计算得到features中的最后一列是最有用的特征：

21.8K4 1

Pandas非常用技巧汇总

a 3 3 b 3 4 a 4 5 b 5 我们按照A列中的分组进行聚合，并对B列进行求和，正常情况下我们会得到一个Series，而A列的内容被加入了索引中。...B C 0 g1 3 1 1 g1 2 2 2 g2 3 1 3 g2 4 3 4 g1 2 4 假设我们希望根据A列中的分组，对B列进行求和，而对C列求均值。...3 3 g2 4 4 g1 2 假设我们想根据A列分组，并将每组对应的元素放入列表中（比如g1对应[3, 2, 2]）。...，查看每组内B列元素出现次数最多的元素和其出现的次数，我们可以通过value_counts来实现。..., df3] # 将需要合并的DataFrame放入一个列表中 reduce(lambda left, right: pd.merge(left, right, how='outer', on='A')

4245 0

我的Python分析成长之路9

:计算Series或DataFrame各列的汇总统计集合　　　　pct_change:计算百分比　　　　2.类别型数据的描述性统计　　　　描述类别型特征的分布状况，可以使用频数统计表　　　　value_count...()) #对每个分组中的成员进行标记 16 print(group.size()) #返回每个分组的大小 17 print(group.min()) #返回每个分组的最小值 18 print(group.std...) #根据key1,key2分组 View Code 2.使用agg和aggregate方法聚合，能够将函数应用于每一列　　　　DataFrame.agg(func,axis=0,*args...()) #对每个分组中的成员进行标记 15 print(group.size()) #返回每个分组的大小 16 print(group.min()) #返回每个分组的最小值 17 print(group.std...，clolums：表示列分组键 func:聚合函数 fill_value :对缺失值进行填充 ?

2.1K1 1

用 Pandas 进行数据处理系列二

a_name','bname']] ，里面需要是一个 list 不然会报错增加一列df['new']=list([...])对某一列除以他的最大值df['a']/df['a'].max()排序某一列df.sorted_values...b’].dtype某一列的格式df.isnull()是否空值df....([‘city’,‘size’])[‘id’].count()对两个字段进行分组汇总，然后进行计算df.groupby(‘city’)[‘pr’].agg([len, np.sum,np.mean])对...city 进行分组，然后计算 pr 列的大小、总和和平均数数据统计数据采样，计算标准差、协方差和相关系数。...ss.columns.get_level_values(1) print(l1) ss.columns = l0 + '_' + l1 print(ss) ss.reset_index() print(ss) pandas 默认会将分组后将所有分组列放在索引中

8.1K3 0

玩转数据处理120题｜Pandas版本

' 难度：⭐⭐ Python解法 df.rename(columns={'score':'popularity'}, inplace = True) 5 字符统计题目：统计grammer列中每种编程语言出现的次数...的次数难度：⭐⭐ Python解法 len(df[df['salary'] > 10000]) # 119 48 数据统计题目：查看每种学历出现的次数难度：⭐⭐⭐ 期望输出本科 119 硕士...Python解法 df.columns = ['col1','col2','col3'] 89 数据提取题目：提取第一列中不在第二列出现的数字难度：⭐⭐⭐ Python解法 df['col1'][~...从上一题数据中，对薪资水平列每隔20行进行一次抽样期望结果 ?...salary、score两列进行计算难度：⭐⭐⭐ Python解法 df[["salary","score"]].agg([np.sum,np.mean,np.min]) 119 数据计算题目：对不同列执行不同的计算

7.4K4 0

Pandas进阶修炼120题｜完整版

难度：⭐⭐ 答案 df.rename(columns={'score':'popularity'}, inplace = True) 5 字符统计题目：统计grammer列中每种编程语言出现的次数...\d*",str1) salary = ((int(k[0]) + int(k[1]))/2)*1000 df.ix[i,2] = salary df 24 数据分组题目：将数据根据学历进行分组并计算平均薪资...47 数据计算题目：计算salary大于10000的次数难度：⭐⭐ 答案 len(df[df['salary']>10000]) 48 数据统计题目：查看每种学历出现的次数难度：⭐⭐⭐ 期望输出...df.columns = ['col1','col2','col3'] 89 数据提取题目：提取第一列中不在第二列出现的数字难度：⭐⭐⭐ 答案 df['col1'][~df['col1'].isin...低'} ) 103 数据计算题目：从dataframe提取数据难度：⭐⭐⭐ 备注从上一题数据中，对薪资水平列每隔20行进行一次抽样期望结果 ?

11.7K10 6

Python数据分析实战（2）使用Pandas进行数据分析

对DataFrame最直观的理解是把它当成一个Excel表格文件，如下： ? 索引是从0开始的，也可以将某一行设置为index索引； missing value为缺失值。...[1:3, 1]选择第一二行的第一列，如下： print(DataFrame.iloc[-1]) # 最后一行 print(DataFrame.iloc[1:3, 1]) # 第一二行的第1列 print...7.900000 min 4.300000 mean 5.843333 median 5.800000 Name: 花萼长度, dtype: float64 对某一列进行分组并计数...可以看到，相当于是进行了两次分组，先对电影名进行分组，在电影名相同的情况下再对姓名进行分组，并计算出相应的平均评分。...F', 'M'], dtype='object', name='Gender') 再增加一列数据为男女平均评分的差值： # 女性用户和男性用户对定影评分差异，给数据集增加一列 movie_gender_rating_pingjun

4K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭