Pandas过滤和分组

Pandas是一个基于Python的数据分析库，提供了丰富的数据结构和数据分析工具，可以方便地进行数据处理、清洗、分析和可视化等操作。

过滤和分组是Pandas中常用的数据处理操作之一，可以帮助我们根据特定的条件筛选数据，并按照某些列进行分组统计。

过滤（Filtering）：过滤是指根据特定的条件从数据集中选择出符合条件的数据。在Pandas中，可以使用布尔索引来实现过滤操作。布尔索引是一种通过布尔运算（如大于、小于、等于等）得到的布尔值数组，可以用于选择满足条件的数据行或列。
例如，我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄、性别和成绩等字段。我们可以使用布尔索引来筛选出成绩大于80分的学生数据：
例如，我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄、性别和成绩等字段。我们可以使用布尔索引来筛选出成绩大于80分的学生数据：
输出结果为：
输出结果为：
在这个例子中，我们使用了布尔索引df['成绩'] > 80来选择成绩大于80分的学生数据。
分组（Grouping）：分组是指根据某些列的值将数据集分成多个组，并对每个组进行聚合操作。在Pandas中，可以使用groupby()函数来实现分组操作。groupby()函数会根据指定的列名将数据集分组，并返回一个GroupBy对象，可以对该对象进行聚合操作，如计算平均值、求和、计数等。
例如，我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄、性别和成绩等字段。我们可以根据性别对学生数据进行分组，并计算每个性别的平均成绩：
例如，我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄、性别和成绩等字段。我们可以根据性别对学生数据进行分组，并计算每个性别的平均成绩：
输出结果为：
输出结果为：
在这个例子中，我们使用groupby('性别')将学生数据按照性别进行分组，然后使用['成绩'].mean()计算每个性别的平均成绩。
除了平均值，GroupBy对象还提供了其他聚合函数，如sum()、count()、min()、max()等，可以根据需求选择合适的聚合函数进行操作。