GroupBy，然后使用str.contains标准的均值/中值/模式

基础概念

GroupBy 是数据处理中的一个常见操作，主要用于将数据按照某个或多个列的值进行分组，以便对每个组进行聚合计算。在 Python 的 Pandas 库中，GroupBy 是一个非常强大的功能。

str.contains 是 Pandas 中的一个字符串方法，用于检查字符串是否包含指定的子串。它返回一个布尔值的序列，表示每个元素是否包含指定的子串。

类型

在 GroupBy 操作后，可以使用多种聚合函数，如：

均值 (mean)
中值 (median)
模式 (mode)

应用场景

假设你有一个包含销售数据的 DataFrame，你想按照产品类别分组，并计算每个类别中销售额的均值、中值和最常出现的销售额（模式）。

示例代码

import pandas as pd

# 创建示例数据
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B'],
    'Sales': [100, 200, 150, 250, 100, 300]
}
df = pd.DataFrame(data)

# 使用 GroupBy 和 str.contains 进行聚合计算
grouped = df.groupby('Category')['Sales']

# 计算均值
mean_sales = grouped.mean()
print("Mean Sales:\n", mean_sales)

# 计算中值
median_sales = grouped.median()
print("Median Sales:\n", median_sales)

# 计算模式
mode_sales = grouped.apply(lambda x: x.mode()[0])
print("Mode Sales:\n", mode_sales)

参考链接

常见问题及解决方法

问题：在使用 GroupBy 和 str.contains 时，遇到 KeyError 错误。

原因：通常是因为指定的列名不存在于 DataFrame 中。

解决方法：

确保列名拼写正确，并且与 DataFrame 中的列名完全匹配。
使用 df.columns 查看 DataFrame 的所有列名，确保列名存在。

# 示例：检查列名
print(df.columns)

问题：在使用 str.contains 时，遇到 TypeError 错误。

原因：通常是因为 str.contains 方法应用于非字符串类型的列。

解决方法：

确保要应用 str.contains 的列是字符串类型。
使用 df[column_name].astype(str) 将列转换为字符串类型。

# 示例：将列转换为字符串类型
df['Category'] = df['Category'].astype(str)

通过以上方法，你可以有效地使用 GroupBy 和 str.contains 进行数据处理和分析。

相关·内容

50个超强的Pandas操作！！

描述性统计信息 df.describe() 使用方式：提供DataFrame的描述性统计信息，包括均值、标准差、最小值、25%分位数、中位数（50%分位数）、75%分位数和最大值。...分组统计 df.groupby('ColumnName').agg({'Column1': 'mean', 'Column2': 'sum'}) 使用方式：按照指定列进行分组，然后进行聚合统计。...滑动窗口 df['Column'].rolling(window=size).mean() 使用方式：计算滑动窗口的统计量，如均值。示例：计算“Salary”列的3天滑动平均值。...使用str.contains进行模糊匹配 df[df['Column'].str.contains('pattern', case=False, na=False)] 使用方式：使用str.contains...示例：计算每个组的平均值、最小值和最大值。 df.groupby('Status').agg({'Salary': ['mean', 'min', 'max']}) 50.

5951 0

再见了！Pandas！！

1691 0

从零开始学机器学习——准备和可视化数据

month = pd.DatetimeIndex(pumpkins['Date']).monthprint(month)接下来我们处理价格，我们将只考虑每个菜品的最高价和最低价，然后计算它们的平均值。...针对美国地区的称重方式，我们无需过多关注细节，直接使用已经设定好的公式即可。而对于国内地区，则需要根据数据特征进行截取和调整。...['Package'].str.contains('1/2'), 'Price'] = price/(1/2)print(new_pumpkins)效果如下：数据可视化我们将使用数据可视化库 Matplotlib...：groupby方法被用来按照Month列对数据进行分组，这意味着所有具有相同月份的数据会被归为一组。...接下来，'Price'.mean()是对每个分组内的Price列计算平均值。这样，我们就得到了每个月的南瓜平均价格。最后，.plot(kind='bar')是将计算出的平均价格数据绘制成条形图。

1873 0

Pandas与SQL的数据操作语句对照

就我个人而言，我发现真正有用的是思考如何在SQL中操作数据，然后在Pandas中复制它。所以如果你想更加精通Pandas，我强烈建议你也采用这种方法。...，您可以使用np.select()，其中首先指定您的选择和每个选择的值。...的是.str.contains()。...table_df.sort_values(['column_a', 'column_b'], ascending=[False, True]) 聚合函数 COUNT DISTINCT 请注意聚合函数的一种常见模式...要使用DISTINCT计数，只需使用.groupby()和.nunique()。

3.2K2 0

深入理解Go标准库-ServeMux的使用与模式匹配

它按照一定规则匹配请求URL和已注册的模式，并执行其中最匹配的模式的Handler 基本使用 http.ServeMux实现了Handler接口 type Handler interface { ServeHTTP...Request)转换成类型HandlerFunc，而类型HandlerFunc实现了Handler接口全局默认值当没有设置http.Server.Handler属性时，http.Server就会使用一个全局的变量...url，以方便匹配，在注册时是不会做任何处理的移除host中的端口号针对 URL 中包含..或者.的请求，ServeMux 会对其 Path 进行整理，并匹配到合适的路由模式上针对 URL 中包含重复...url pattern是不会被处理的，而请求的url都是被处理成标准格式所以如果注册如下的pattern，无论如何也是无法被命中的 func main() { mx := http.NewServeMux...，因此 / 也被看作以根路径开始的子树，它不仅匹配/，而且也会匹配所有未被其他路由模式匹配的请求。

5231 0

数据分析篇(五)

，标准差，最大值，最小值，四分位 attr2.describe() # 当然只会统计数字类型的。...] # &表示and |表示或 pandas中字符串的方法 # 这里只介绍常用几种 # 模糊查询名字含有三的是str.contains() a = attr1.loc[attr1['name'].str.contains...缺失数据的处理我们如果读取爬去到的大量数据，可能会存在NaN值。出现NaN和numpy中是一样的，表示不是一个数字。我们需要把他修改成0获取其他中值，来减少我们计算的误差。...NaN就删除，也就是默认的 attr4.deopna(axis=0,how='any') # 把所有NaN填充为0 attr4.fillna(0) # 填充均值 attr4.fillna(attr4.mean...()) # 赋值为NaN值 att4['age'][0] = np.nan # 赋值为0的数据为NaN attr4[attr4==0] = np.nan nan是不会参与平均值等计算的，0会参与计算。

7782 0

1w 字的 pandas 核心操作知识大全。

numpy生成20个指定分布(如标准正态分布)的数 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) # 生成一个和df长度相同的随机数...col2 按降序排序 df.groupby(col) #从一个栏返回GROUPBY对象 df.groupby([col1,col2]) # 返回来自多个列的...groupby对象 df.groupby(col1)[col2] # 返回中的值的平均值 col2，按中的值分组 col1 （平均值可以用统计模块中的几乎所有函数替换...df.groupby(col1).agg(np.mean) # 在所有列中找到每个唯一col1 组的平均值 df.apply(np.mean)...df.min() # 返回每一列中的最小值 df.median() # 返回每列的中位数 df.std() # 返回每列的标准偏差 16个函数，用于数据清洗

14.8K3 0

强烈推荐Pandas常用操作知识大全！

numpy生成20个指定分布(如标准正态分布)的数 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) # 生成一个和df长度相同的随机数...col2 按降序排序 df.groupby(col) #从一个栏返回GROUPBY对象 df.groupby([col1,col2]) # 返回来自多个列的...groupby对象 df.groupby(col1)[col2] # 返回中的值的平均值 col2，按中的值分组 col1 （平均值可以用统计模块中的几乎所有函数替换...df.groupby(col1).agg(np.mean) # 在所有列中找到每个唯一col1 组的平均值 df.apply(np.mean)...# 返回每列中的最高值 df.min() # 返回每一列中的最小值 df.median() # 返回每列的中位数 df.std() # 返回每列的标准偏差

15.9K2 0

Pandas速查卡-Python数据科学

它不仅提供了很多方法和函数，使得处理数据更容易；而且它已经优化了运行速度，与使用Python的内置函数进行数值数据处理相比，这是一个显著的优势。...=False) 将col2按降序对值排序 df.sort_values([col1,ascending=[True,False]) 将col1按升序排序，然后按降序排序col2 df.groupby(col...) 从一列返回一组对象的值 df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值，按col1中的值分组（平均值可以用统计部分中的几乎任何函数替换...） df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表，按col1分组并计算col2和col3的平均值 df.groupby...() 查找每个列中的最大值 df.min() 查找每列中的最小值 df.median() 查找每列的中值 df.std() 查找每个列的标准差点击“阅读原文”下载此速查卡的打印版本 END.

9.2K8 0

Pandas 2.2 中文官方教程和指南（二十·二）

4630 0

183条地铁线路，3034个地铁站，发现中国城市地名的秘密

导读：最近看了新周刊的一篇推送《我们分析了3447个地铁站，发现了中国城市地名的秘密》，有关地铁名字的分析。于是乎也想着自己去获取数据，然后进行分析一番。...但于我而言，去除重复数据还是比较简单的。然后照着人家的路子去分析，学习一下思路。作者：小F 来源：法纳斯特（ID：walker398） 01 获取分析地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站的地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路的数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个，约占上海地铁的三分之二，路的七分之二。...] # 选取西安地铁站名字包含门的数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

7233 1

我们爬了上千个数据分析师信息, 你真的懂数据分析师嘛？

数据整理前期准备工作，由于matplotlib包使用的默认字体不支持中文，所以得修改配置，用文本编辑器打开下面命令得到的路径中的 matplotlibrc文件，将以 font.family和 font.sans-serif...=True) #对技能频数字典按值从大到小排序 hot_skill_list = skill_sort[0:20] hot_skill_salary_mean = {} # 存放技能中值的均值的字典...']: # 如果技能在数据框的技能列中 if i[0] in hot_skill_salary_mean: # 如果技能在技能中值的均值的字典中 # 技能键的值为原值加上新值...df_clean.loc[j, 'salary_median'] hot_skill_salary_mean[i[0]] = hot_skill_salary_mean[i[0]] / i[1] # 技能中值的均值为之前计算的和除以技能频数...= [] #热门技能的中值的均值列表 for i,j in dict(hot_skill_salary_mean).items(): hot_skill_salary_key.append(i)

4283 0

Pandas进阶修炼120题｜第一期

如果你是新手，可以通过本系列完整学习使用pandas进行数据处理的各种方法，如果你是高手，欢迎留言给出与答案的不同解法。本期先来20题热身吧！...0 Python 1.0 7 Python 10.0 答案： result=df[df['grammer'].str.contains("Python")] 3 提取列名题目：输出df的所有列名...难度：⭐⭐ 答案 df['grammer'].value_counts() 6 缺失值处理题目：将空值用上下值的平均值填充难度：⭐⭐⭐ 答案 df['popularity'] = df['popularity...'].fillna(df['popularity'].interpolate()) 7 数据提取题目：提取popularity列中值大于3的行难度：⭐⭐ 答案 df[df['popularity']...> 3] 8 数据去重题目：按照grammer列进行去重难度：⭐⭐ 答案 df.drop_duplicates(['grammer']) 9 数据计算题目：计算popularity列平均值

7381 0

分析了3447个地铁站，发现了地铁命名的秘密

最近看了新周刊的一篇推送，有关地铁名字的分析，链接如下。我们分析了3447个地铁站，发现了中国城市地名的秘密于是乎也想着自己去获取数据，然后进行分析一番。...但于我而言，去除重复数据还是比较简单的。然后照着人家的路子去分析，多学习一下。 / 01 / 获取分析地铁信息获取从高德地图上获取。上面主要获取城市的「id」，「cityname」及「名称」。...# 去除重复换乘站的地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路的数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个，约占上海地铁的三分之二，路的七分之二。...] # 选取西安地铁站名字包含门的数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

5736 0

183条地铁线路，3034个地铁站，发现中国地铁名字的秘密。

我们分析了3447个地铁站，发现了中国城市地名的秘密于是乎也想着自己去获取数据，然后进行分析一番。当然分析水平不可能和他们的相比，毕竟文笔摆在那里，也就那点水平。...但于我而言，去除重复数据还是比较简单的。然后照着人家的路子去分析，多学习一下。 / 01 / 获取分析地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站的地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路的数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个，约占上海地铁的三分之二，路的七分之二。...] # 选取西安地铁站名字包含门的数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

4682 0

爬取183条地铁线路，3034个地铁站，发现中国地铁名字的秘密...

本文转自公众号法纳斯特最近看了新周刊的一篇推送，有关地铁名字的分析，链接如下。我们分析了3447个地铁站，发现了中国城市地名的秘密于是乎也想着自己去获取数据，然后进行分析一番。...但于我而言，去除重复数据还是比较简单的。然后照着人家的路子去分析，多学习一下。 / 01 / 获取分析地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站的地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路的数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个，约占上海地铁的三分之二，路的七分之二。...] # 选取西安地铁站名字包含门的数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下： ?

1.4K3 0

opencv 滤波方框滤波均值滤波高斯滤波中值滤波双边滤波

但是均值滤波本身存在着固有的缺陷，即它不能很好地保护图像细节，在图像去噪的同时也破坏了图像的细节部分，从而使图像变得模糊，不能很好地去除噪声点。 / ** @brief使用标准化框过滤器模糊图像。...或者，它们可以为零，然后根据sigma计算得出。 @param sigmaX X方向上的高斯核标准偏差。...中值滤波中值滤波原理：简言之中值滤波就是把函数框（如图中的3 X 3）内的灰度值按顺序排列，然后中值取代函数框中心的灰度值。...所以一般采用奇数点的邻域来计算中值，但如果像素点数为偶数，中值就取排序像素中间两点的平均值。...但是中值滤波的缺点也很明显，因为要进行排序操作，所以处理的时间长，是均值滤波的5倍以上。 / ** @brief使用中值滤镜模糊图像。

1.4K2 0

pandas分组聚合转换

分组的一般模式分组操作在日常生活中使用极其广泛：依据性别性别分组，统计全国人口寿命寿命的平均值平均值依据季节季节分组，对每一个季节的温度温度进行组内标准化组内标准化从上述的例子中不难看出，想要实现分组操作...同时从充分性的角度来说，如果明确了这三方面，就能确定一个分组操作，从而分组代码的一般模式： df.groupby(分组依据)[数据来源].使用操作例如第一个例子中的代码就应该如下： df.groupby...首先应该先写出分组条件： con = df.weight > df.weight.mean() 然后将其传入groupby中： df.groupby(condition)['Height'].mean...my_zscore) transform其实就是对每一组的每个元素与mean（聚合值）值进行计算，列数与原来一样: 可以看出条目数没有发生变化：对身高和体重进行分组标准化，即减去组均值后除以组的标准差...当apply()函数与groupby()结合使用时，传入apply()的是每个分组的DataFrame。这个DataFrame包含了被分组列的所有值以及该分组在其他列上的所有值。

1201 0

Pandas的apply, map, transform介绍和性能测试

假设要标准化数据： df.groupby("subject")["score"] \ .transform( lambda x: (x - x.mean...，并用其标准化值替换每个元素。...Transform必须返回一个与它所应用的轴长度相同的数据框架。也就是说即使transform与返回聚合值的groupby操作一起使用，它会将这些聚合值赋给每个元素。...所以无论自定义聚合器是如何实现的，结果都将是传递给它的每一列的单个值。来看看一个简单的聚合——计算每个组在得分列上的平均值。 ...我们还可以构建自定义聚合器，并对每一列执行多个特定的聚合，例如计算一列的平均值和另一列的中值。性能对比就性能而言，agg比apply稍微快一些，至少对于简单的聚合是这样。

2K3 0

数据科学 IPython 笔记本 7.11 聚合和分组

下表总结了其他一些内置的 Pandas 聚合：聚合描述 count() 项目总数 first(), last() 第一个和最后一个项目 mean(), median() 均值和中值 min(), max...相反，GroupBy可以（经常）只遍历单次数据来执行此操作，在此过程中更新每个组的总和，均值，计数，最小值或其他聚合。...GroupBy对象 GroupBy对象是一个非常灵活的抽象。在许多方面，你可以简单地将它视为DataFrame的集合，它可以解决困难的问题。让我们看一些使用行星数据的例子。...这只是分发方法的一个例子。请注意，它们被应用于每个单独的分组，然后在```GroupBy中组合并返回结果。...一个常见的例子是通过减去分组均值来使数据居中： df.groupby('key').transform(lambda x: x - x.mean()) data1 data2 0 -1.5 1.0 1

3.7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

GroupBy，然后使用str.contains标准的均值/中值/模式

基础概念

相关优势

类型

应用场景

示例代码

参考链接

常见问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐