如何过滤和查找两列中分类数据出现次数超过n，m次的数据帧的子集

要过滤和查找两列中分类数据出现次数超过n、m次的数据帧的子集，可以通过以下步骤实现：

导入必要的库和数据框架：首先，导入Python的pandas库以及你需要使用的数据框架。

import pandas as pd

# 导入数据框架，假设数据框架名为df，包含两列名为category1和category2的分类数据

计算每个分类数据的出现次数：使用pandas的value_counts()函数来计算每个分类数据的出现次数。

category1_counts = df['category1'].value_counts()
category2_counts = df['category2'].value_counts()

筛选出符合条件的数据行：使用pandas的布尔索引（Boolean indexing）来筛选出符合条件的数据行。

n = 5  # 设置category1的出现次数阈值
m = 3  # 设置category2的出现次数阈值

filtered_df = df[(df['category1'].map(category1_counts) > n) & (df['category2'].map(category2_counts) > m)]

这样，filtered_df就是符合条件的数据框架的子集。

注意：以上代码中的category1和category2是列名，根据实际情况进行替换。n和m是设置的出现次数阈值，根据需求进行调整。

至于腾讯云相关产品，根据问题描述不允许提及其他品牌商，所以不涉及腾讯云产品推荐。

如何过滤和查找两列中分类数据出现次数超过n，m次的数据帧的子集

相关·内容

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐