首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

软件测试笔记|Python编程基础|Pandas 知识精要

“动动小手,点点关注呗~”

一、数据结构与创建

(一)核心数据结构剖析

Pandas 核心数据结构含 Series 与 DataFrame。Series 为一维带标签数组,由数据与索引组成,索引默认整型,可自定义。DataFrame 是二维表格型数据结构,行、列皆有索引,列可为不同数据类型,如由 Series 组成字典或二维数组加列名列表构建。此二者为数据处理基石,高效存储、处理多类型数据,索引机制助精准访问,于数据分析、处理与可视化意义深远。

(二)对象创建方式

1. Series 创建途径

pd.Series 依列表、numpy 数组、字典等创建。传列表默认整型索引;传 numpy 数组可设索引;字典创建时键为索引、值为数据,键顺序或乱序,索引值可重复。

2. DataFrame 创建之法

pd.DataFrame 可由二维数组或字典创建。二维数组创建时,列名默认数字,可传列名列表自定义;字典创建时,键为列名、值为列数据,键值对顺序无关紧要,值可为列表、numpy 数组或 Series,长度须一致,否则报错,确保数据完整性与一致性,为数据处理准备有序结构。

二、数据操作秘籍

(一)基础数据查看

1. 查看数据轮廓

head 与 tail 函数默认查前、后五行数据,传参可改行数,助快速览数据大致分布,于大数据集探首末部分,初判数据特征与趋势,定位异常值或关键信息,提升数据预览效率,为后续分析定方向。

2. 索引与行列洞察

index、columns 与 values 属性,分别获索引、列名及值数组。索引为行标签,助按标签定位行;列名揭示列标识;值数组呈底层数据矩阵,为数据处理核心,助理解数据框架结构,于数据筛选、转换及计算不可或缺。

3. 统计概要

describe 函数对数值列算统计量,含计数、均值、标准差、最值、四分位数等,助掌握数值分布特征,为分析数据离散、集中趋势奠基,依统计结果选分析方法,如正态分布用参数法,非正态分布用非参数法。

(二)灵活数据选取

1. 列选取策略

选单列得 Series,语法同字典取值;多列选取,传列名列表返子集 DataFrame,依需求精准提取数据,列数据可独立处理,如算均值、求和或绘图,助分析特定变量关系与特征。

2. 行选取技法

loc 基于标签选行,索引值为标签,可切片含首尾,还选特定行与列交集数据;iloc 依位置选行,索引为整数位置,切片不含尾,支持位置列表选多行及与列选取组合,助依序或指定位置提取行数据,于数据遍历、抽样、按序处理关键。

3. 条件筛选窍门

依条件表达式筛行,如 df[df['column'] > value] 筛符合列条件数据,条件可复杂逻辑组合,助按值范围、类别等精准筛选,提取目标数据子集,为深度分析做准备,于探索数据内在规律重要。

(三)缺失值智慧应对

1. 缺失值识别手段

isnull 与 notnull 函数识别缺失值,生成布尔掩码标识,助定位缺失位置与分布,为处理策略提供依据,于数据清洗、质量评估关键,确保分析基于可靠数据,免误导结论。

2. 缺失值处理策略

dropna 依轴删含缺失值行或列,how='any' 有缺失则删,how='all' 全为缺失才删;fillna 用指定值或方法填充,如 fillna(0) 以零填,fillna(method='ffill') 向前填充,依需求与数据特征选策略,保数据完整性与可用性,提升分析准确性。

三、数据处理宝典

(一)数据重塑妙法

1. 重塑原理

melt 融合多列成键值对,设 id_vars 保留列、value_vars 重塑列,新列存原列名与值,pivot 逆操作,依特定列值重塑宽表,助转换行列布局,从长格式析变量关系或宽格式观数据全貌,适配不同分析场景。

2. 层次索引构建

set_index 依列设层次索引,提升数据维度管理与分组运算便利性;reset_index 还原索引为列,助切换索引与列状态,于索引调整、数据重组关键,优化数据结构以利操作。

(二)数据合并奇招

1. 合并类型概览

merge 依键合并,如内连接仅保留匹配键行,外连接全保留用 NaN 补缺失;concat 沿轴拼接,轴 0 叠加行、轴 1 拼接列,可设参数调索引与列名,join 以索引为键合并,功能似 merge 操作索引,适不同数据整合需求,如数据集拼接、关联分析。

2. 合并实战要点

合并时键处理关键,on 指定列名、left_on 与 right_on 处理列名不同情况,left_index 与 right_index 用索引为键,处理重复键可选合并方式,考虑数据逻辑关系与冗余,保合并后数据准确可用,为综合分析做准备。

(三)分组聚合精髓

1. 分组操作流程

groupby 依列或函数分组,生成分组对象,可迭代处理组内数据或聚合计算,助按类别特征剖析数据,如依地区分组算销售均值,析区域销售差异,为决策提供依据。

2. 聚合函数运用

聚合用 mean、sum、count 等函数算统计量,可传函数列表或字典指定列聚合方式,自定义函数实现复杂计算,灵活处理分组数据,挖掘数据深度信息,揭示数据分布规律与趋势。

四、时间序列锦囊

(一)日期时间处理基础

1. 日期时间创建

pd.to_datetime 解析日期字符串、时间戳或序列成日期时间对象,date_range 生成固定频率日期时间索引,设起始、结束、周期、频率参数,频率参数如 D(日)、M(月)、Y(年)等,为时间序列分析建基础索引,助处理周期数据与时间序列。

2. 日期时间抽取

从日期时间对象或索引提取年、月、日等属性,用 dt 访问器,如 df['date_column'].dt.year 取年份列,便按时间维度分析数据,如按年统计销量、按月绘趋势图,发现时间关联规律与趋势。

(二)时间序列重采样魔法

resample 依频率重采样,升采样填充、降采样聚合,传频率参数与聚合函数,如 df.resample('M').mean() 按月重采样求均值,实现频率转换与数据平滑,处理不同频率数据,如金融数据日线转月线分析趋势。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oro_esW4_Kjrei2uIxu__1TQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券