首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

50个超强Pandas操作 !!

描述性统计信息 df.describe() 使用方式: 提供DataFrame描述性统计信息,包括均值标准差、最小值、25%分位数、中位数(50%分位数)、75%分位数和最大值。...分组统计 df.groupby('ColumnName').agg({'Column1': 'mean', 'Column2': 'sum'}) 使用方式: 按照指定列进行分组,然后进行聚合统计。...滑动窗口 df['Column'].rolling(window=size).mean() 使用方式: 计算滑动窗口统计量,如均值。 示例: 计算“Salary”列3天滑动平均值。...使用str.contains进行模糊匹配 df[df['Column'].str.contains('pattern', case=False, na=False)] 使用方式: 使用str.contains...示例: 计算每个组均值、最小值和最大值。 df.groupby('Status').agg({'Salary': ['mean', 'min', 'max']}) 50.

26010

再见了!Pandas!!

描述性统计信息 df.describe() 使用方式: 提供DataFrame描述性统计信息,包括均值标准差、最小值、25%分位数、中位数(50%分位数)、75%分位数和最大值。...分组统计 df.groupby('ColumnName').agg({'Column1': 'mean', 'Column2': 'sum'}) 使用方式: 按照指定列进行分组,然后进行聚合统计。...滑动窗口 df['Column'].rolling(window=size).mean() 使用方式: 计算滑动窗口统计量,如均值。 示例: 计算“Salary”列3天滑动平均值。...使用str.contains进行模糊匹配 df[df['Column'].str.contains('pattern', case=False, na=False)] 使用方式: 使用str.contains...示例: 计算每个组均值、最小值和最大值。 df.groupby('Status').agg({'Salary': ['mean', 'min', 'max']}) 50.

11110
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析篇(五)

标准差,最大值,最小值,四分位 attr2.describe() # 当然只会统计数字类型。...] # &表示and |表示或 pandas中字符串方法 # 这里只介绍常用几种 # 模糊查询名字含有三str.contains() a = attr1.loc[attr1['name'].str.contains...缺失数据处理 我们如果读取爬去到大量数据,可能会存在NaN值。 出现NaN和numpy中是一样,表示不是一个数字。 我们需要把他修改成0获取其他中值,来减少我们计算误差。...NaN就删除,也就是默认 attr4.deopna(axis=0,how='any') # 把所有NaN填充为0 attr4.fillna(0) # 填充均值 attr4.fillna(attr4.mean...()) # 赋值为NaN值 att4['age'][0] = np.nan # 赋值为0数据为NaN attr4[attr4==0] = np.nan nan是不会参与平均值等计算,0会参与计算。

73920

深入理解Go标准库-ServeMux使用模式匹配

它按照一定规则匹配请求URL和已注册模式,并执行其中最匹配模式Handler 基本使用 http.ServeMux实现了Handler接口 type Handler interface { ServeHTTP...Request)转换成类型HandlerFunc,而类型HandlerFunc实现了Handler接口 全局默认值 当没有设置http.Server.Handler属性时,http.Server就会使用一个全局变量...url,以方便匹配,在注册时是不会做任何处理 移除host中端口号 针对 URL 中包含..或者.请求,ServeMux 会对其 Path 进行整理,并匹配到合适路由模式上 针对 URL 中包含重复...url pattern是不会被处理,而请求url都是被处理成标准格式 所以如果注册如下pattern,无论如何也是无法被命中 func main() { mx := http.NewServeMux...,因此 / 也被看作以根路径开始子树,它不仅匹配/,而且也会匹配所有未被其他路由模式匹配请求。

22910

Pandas速查卡-Python数据科学

它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行速度,与使用Python内置函数进行数值数据处理相比,这是一个显著优势。...=False) 将col2按降序对值排序 df.sort_values([col1,ascending=[True,False]) 将col1按升序排序,然后按降序排序col2 df.groupby(col...) 从一列返回一组对象值 df.groupby([col1,col2]) 从多列返回一组对象值 df.groupby(col1)[col2] 返回col2中均值,按col1中值分组(平均值可以用统计部分中几乎任何函数替换...) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表,按col1分组并计算col2和col3均值 df.groupby...() 查找每个列中最大值 df.min() 查找每列中最小值 df.median() 查找每列中值 df.std() 查找每个列标准差 点击“阅读原文”下载此速查卡打印版本 END.

9.2K80

Pandas 2.2 中文官方教程和指南(二十·二)

() 计算每个组中位数 min() 计算每个组中最小值 nunique() 计算每个组中唯一值数量 prod() 计算每个组中值乘积 quantile() 计算每个组中值给定分位数 sem()...计算每个组中值平均标准误差 size() 计算每个组中数量 skew() * 计算每个组中值偏度 std() 计算每个组中值标准偏差 sum() 计算每个组中值总和 var() 计算每个组中值方差...() 计算每个组中位数 min() 计算每个组中最小值 nunique() 计算每个组中唯一值数量 prod() 计算每个组中值乘积 quantile() 计算每个组中值给定分位数 sem()...计算每个组中值均值标准误差 size() 计算每个组中值数量 skew() * 计算每个组中值偏度 std() 计算每个组中值标准差 sum() 计算每个组中值总和 var() 计算每个组中值方差...然后,filter方法结果是 UDF 返回True子集。 假设我们只想获取属于组总和大于 2 元素。

34200

183条地铁线路,3034个地铁站,发现中国城市地名秘密

导读:最近看了新周刊一篇推送《我们分析了3447个地铁站,发现了中国城市地名秘密》,有关地铁名字分析。 于是乎也想着自己去获取数据,然后进行分析一番。...但于我而言,去除重复数据还是比较简单然后照着人家路子去分析,学习一下思路。 作者:小F 来源:法纳斯特(ID:walker398) 01 获取分析 地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个,约占上海地铁三分之二,路七分之二。...] # 选取西安地铁站名字包含门数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

69531

我们爬了上千个数据分析师信息, 你真的懂数据分析师嘛?

数据整理 前期准备工作,由于matplotlib包使用默认字体不支持中文,所以得修改配置,用文本编辑器打开下面命令得到路径中 matplotlibrc文件,将以 font.family和 font.sans-serif...=True) #对技能频数字典按值从大到小排序 hot_skill_list = skill_sort[0:20] hot_skill_salary_mean = {} # 存放技能中值均值字典...']: # 如果技能在数据框技能列中 if i[0] in hot_skill_salary_mean: # 如果技能在技能中值均值字典中 # 技能键值为原值加上新值...df_clean.loc[j, 'salary_median'] hot_skill_salary_mean[i[0]] = hot_skill_salary_mean[i[0]] / i[1] # 技能中值均值为之前计算和除以技能频数...= [] #热门技能中值均值列表 for i,j in dict(hot_skill_salary_mean).items(): hot_skill_salary_key.append(i)

41130

Pandas进阶修炼120题|第一期

如果你是新手,可以通过本系列完整学习使用pandas进行数据处理各种方法,如果你是高手,欢迎留言给出与答案不同解法。本期先来20题热身吧!...0 Python 1.0 7 Python 10.0 答案: result=df[df['grammer'].str.contains("Python")] 3 提取列名 题目:输出df所有列名...难度:⭐⭐ 答案 df['grammer'].value_counts() 6 缺失值处理 题目:将空值用上下值均值填充 难度:⭐⭐⭐ 答案 df['popularity'] = df['popularity...'].fillna(df['popularity'].interpolate()) 7 数据提取 题目:提取popularity列中值大于3行 难度:⭐⭐ 答案 df[df['popularity']...> 3] 8 数据去重 题目:按照grammer列进行去重 难度:⭐⭐ 答案 df.drop_duplicates(['grammer']) 9 数据计算 题目:计算popularity列平均值

70910

183条地铁线路,3034个地铁站,发现中国地铁名字秘密。

我们分析了3447个地铁站,发现了中国城市地名秘密 于是乎也想着自己去获取数据,然后进行分析一番。 当然分析水平不可能和他们相比,毕竟文笔摆在那里,也就那点水平。...但于我而言,去除重复数据还是比较简单然后照着人家路子去分析,多学习一下。 / 01 / 获取分析 地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个,约占上海地铁三分之二,路七分之二。...] # 选取西安地铁站名字包含门数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

43920

爬取183条地铁线路,3034个地铁站,发现中国地铁名字秘密...

本文转自公众号 法纳斯特 最近看了新周刊一篇推送,有关地铁名字分析,链接如下。 我们分析了3447个地铁站,发现了中国城市地名秘密 于是乎也想着自己去获取数据,然后进行分析一番。...但于我而言,去除重复数据还是比较简单然后照着人家路子去分析,多学习一下。 / 01 / 获取分析 地铁信息获取从高德地图上获取。 ?...# 去除重复换乘站地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个,约占上海地铁三分之二,路七分之二。...] # 选取西安地铁站名字包含门数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下: ?

1.3K30

分析了3447个地铁站,发现了地铁命名秘密

最近看了新周刊一篇推送,有关地铁名字分析,链接如下。 我们分析了3447个地铁站,发现了中国城市地名秘密 于是乎也想着自己去获取数据,然后进行分析一番。...但于我而言,去除重复数据还是比较简单然后照着人家路子去分析,多学习一下。 / 01 / 获取分析 地铁信息获取从高德地图上获取。 上面主要获取城市「id」,「cityname」及「名称」。...# 去除重复换乘站地铁数据 df_station = df.groupby(['city', 'station']).count().reset_index() print(df_station) 一共包含...# 选取上海地铁站名字包含路数据 df2 = df1[df1['station'].str.contains('路')] print(df2) 有210个,约占上海地铁三分之二,路七分之二。...] # 选取西安地铁站名字包含门数据 df2 = df1[df1['station'].str.contains('门')] print(df2) 输出如下。

54960

pandas分组聚合转换

分组一般模式 分组操作在日常生活中使用极其广泛: 依据性别性别分组,统计全国人口寿命寿命均值均值 依据季节季节分组,对每一个季节温度温度进行组内标准化组内标准化 从上述例子中不难看出,想要实现分组操作...同时从充分性角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码一般模式: df.groupby(分组依据)[数据来源].使用操作 例如第一个例子中代码就应该如下: df.groupby...首先应该先写出分组条件: con = df.weight > df.weight.mean()  然后将其传入groupby中: df.groupby(condition)['Height'].mean...my_zscore) transform其实就是对每一组每个元素与mean(聚合值)值进行计算,列数与原来一样: 可以看出条目数没有发生变化:  对身高和体重进行分组标准化,即减去组均值后除以组标准差...当apply()函数与groupby()结合使用时,传入apply()是每个分组DataFrame。这个DataFrame包含了被分组列所有值以及该分组在其他列上所有值。

8710

opencv 滤波 方框滤波 均值滤波 高斯滤波 中值滤波 双边滤波

但是均值滤波本身存在着固有的缺陷,即它不能很好地保护图像细节,在图像去噪同时也破坏了图像细节部分,从而使图像变得模糊,不能很好地去除噪声点。 / ** @brief使用标准化框过滤器模糊图像。...或者,它们可以为零,然后根据sigma计算得出。 @param sigmaX X方向上高斯核标准偏差。...中值滤波 中值滤波原理: 简言之中值滤波就是把函数框(如图中3 X 3)内灰度值按顺序排列,然后中值取代函数框中心灰度值。...所以一般采用奇数点邻域来计算中值,但如果像素点数为偶数,中值就取排序像素中间两点均值。...但是中值滤波缺点也很明显,因为要进行排序操作,所以处理时间长,是均值滤波5倍以上。 / ** @brief使用中值滤镜模糊图像。

1.1K20

Pandasapply, map, transform介绍和性能测试

假设要标准化数据: df.groupby("subject")["score"] \ .transform( lambda x: (x - x.mean...,并用其标准化值替换每个元素。...Transform必须返回一个与它所应用轴长度相同数据框架。 也就是说即使transform与返回聚合值groupby操作一起使用,它会将这些聚合值赋给每个元素。...所以无论自定义聚合器是如何实现,结果都将是传递给它每一列单个值。 来看看一个简单聚合——计算每个组在得分列上均值。  ...我们还可以构建自定义聚合器,并对每一列执行多个特定聚合,例如计算一列均值和另一列中值。 性能对比 就性能而言,agg比apply稍微快一些,至少对于简单聚合是这样。

1.9K30

数据科学 IPython 笔记本 7.11 聚合和分组

下表总结了其他一些内置 Pandas 聚合: 聚合 描述 count() 项目总数 first(), last() 第一个和最后一个项目 mean(), median() 均值中值 min(), max...相反,GroupBy可以(经常)只遍历单次数据来执行此操作,在此过程中更新每个组总和,均值,计数,最小值或其他聚合。...GroupBy对象 GroupBy对象是一个非常灵活抽象。在许多方面,你可以简单地将它视为DataFrame集合,它可以解决困难问题。让我们看一些使用行星数据例子。...这只是分发方法一个例子。请注意,它们被应用于每个单独分组,然后在```GroupBy中组合并返回结果。...一个常见例子是通过减去分组均值来使数据居中: df.groupby('key').transform(lambda x: x - x.mean()) data1 data2 0 -1.5 1.0 1

3.6K20

pandas类SQL操作

(),主要用来确认每个单独条件范围; 其二:中间需要使用&等连接符号,而不能使用“and”等语法; 其三:np逻辑函数无法实现较多条件。...几种常用用法有: 单列分组:然后按照另一列数据计算相应值: print(data1.groupby('a')['b'].mean()) 多列分组:然后按照另一列数据计算相应值: Agg作用即为封装对应函数...print(data1.groupby(['a','b']).agg('mean')) 多列分组:然后按照多列分别计算相应值: data1 = pd.DataFrame([['1','23',3, 5...,figsize=(20, 5))) 仔细分析groupby函数我们发现,groupby是一个迭代器,我们可以通过遍历方式获取到groupby之后内容: data3 = data1.groupby...data1['ranks'] = data1.groupby(['a','b'])['c'].rank() print(data1) 而全部数据排序我们使用sort_values函数。

1.8K21
领券