首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习测试笔记(2)——Pandas

Pandas 适用于处理以下类型数据: 与 SQL Excel 类似的,含异构列表格数据; 有序和无序(非固定频率时间序列数据; 带行列标签矩阵数据,包括同构异构型数据; 任意其它形式观测...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入删除 DataFrame 等多维对象列; 自动、显式数据对齐:显式地将对象与一组标签对齐...格式保存 / 加载数据; 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。...by:指定列名(axis=0’index’)索引值(axis=1’columns’) axis:若axis=0’index’,则按照指定列数据大小排序;若axis=1’columns’,则按照指定索引数据大小排序...,默认axis=0 ascending:是否指定列数组升序排列,默认为True,即升序排列 inplace:是否用排序后数据集替换原来数据,默认为False,即不替换 na_position:{

1.5K30

针对SAS用户:Python数据分析库pandas

可以认为DataFrames是包含行和列二维数组索引。好比Excel单元格行和列位置寻址。 换句话说,DataFrame看起来很像SAS数据集(关系)。...导入包 为了使用pandas对象, 任何其它Python包对象,我们开始名称导入库到命名空间。为了避免重复键入完整地包名,对NumPy使用np标准别名,对pandas使用pd。 ?...大部分SAS自动变量像_n_ 使用1作为索引开始位置。SAS迭代DO loop 0 to 9结合ARRAY产生一个数组下标超出范围错误。 下面的SAS例子,DO循环用于迭代数组元素来定位目标元素。...Series由整数值索引,并且起始位置是0。 ? SAS示例使用一个DO循环做为索引下标插入数组。 ? 返回Series前3个元素。 ? 该示例有2个操作。...PROC PRINT输出在此处不显示。 下面的单元格显示范围输出。列列表类似于PROC PRINTVAR。注意此语法双方括号。这个例子展示了列标签切片。行切片也可以。

12.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

Python 数据分析(PYDA)第三版(五)

True,则仅显示键观察类别值,而不是所有类别 交叉制表:交叉制表 交叉制表(简称为交叉制表)是计算组频率透视一种特殊情况。...2000-01-02 3 2000-01-03 1 dtype: int64 11.3 日期范围频率和移位 在 pandas ,通常假定通用时间序列是不规则;也就是说,它们没有固定频率...幸运是,pandas 具有一整套标准时间序列频率和重新采样工具(稍后在重新采样和频率转换更详细地讨论),可以推断频率并生成固定频率日期范围。...注意 用户可以定义自己自定义频率类,以提供 pandas 不可用日期逻辑,但这些完整细节超出了本书范围。 月份周日期 一个有用频率类是“月份周”,从WOM开始。...虽然新 PeriodIndex 频率默认情况下是根据时间戳推断,但您可以指定任何支持频率(大多数列在 Table 11.4 列出频率都受支持)。

7000

【Mark一下】46个常用 Pandas 方法速查表

例如可以从dtype返回仅获取类型为bool列。 3 数据切片和切块 数据切片和切块是使用不同索引切分数据,实现从数据获取特定子集方式。...常见数据切片和切换方式如表3所示: 3 Pandas常用数据切分方法 方法用途示例示例说明[['列名1', '列名2',…]]列名选择单列多列In: print(data2[['col1','...col3 0 2 a True 1 1 b True 2 0 a False选择col2值为acol3值为True记录使用isin查找范围基于特定值范围数据查找...1 1 b 1筛选数据col2值为b记录 5 数据预处理操作 Pandas数据预处理基于整个数据框Series实现,整个预处理工作包含众多项目,本节列出通过Pandas...具体实现如表7所示: 7 Pandas常用数据分类汇总方法 方法用途示例示例说明groupby指定列做分类汇总In: print(data2.groupby(['col2'])['col1'].

4.7K20

最全面的Pandas教程!没有之一!

获取 DataFrame 一行多行数据 要获取某一行,你需要用 .loc[] 来索引(标签名)引用这一行,或者用 .iloc[],这行在位置(行数)来引用。 ?...你可以用逻辑运算符 &(与)和 |()来链接多个条件语句,以便一次应用多个筛选条件到当前 DataFrame 上。举个栗子,你可以用下面的方法筛选出同时满足 'W'>0 和'X'>1 行: ?...当你使用 .dropna() 方法时,就是告诉 Pandas 删除掉存在一个多个空值行(或者列)。删除列用是 .dropna(axis=0) ,删除行用是 .dropna(axis=1) 。...因为我们没有指定堆叠方向,Pandas 默认方向堆叠,把每个索引顺序叠加。 如果你想要按列方向堆叠,那你需要传入 axis=1 参数: ? 注意,这里出现了一大堆空值。...请注意,每个 Excel 表格文件都含有一个多个工作,传入 sheet_name='Sheet1' 这样参数,就表示只读取 'excel_output.xlsx' Sheet1 工作内容

25.8K64

数据科学 IPython 笔记本 7.14 处理时间序列

时间增量间隔(duration):引用确切时间长度(例如,间隔为 22.56 秒)。 在本节,我们将介绍如何在 Pandas 中使用这些类型日期/时间数据。...这个简短章节绝不是 Python Pandas 可用时间序列工具完整指南,而是用户应如何处理时间序列广泛概述。...我们将首先简要讨论 Python 处理日期和时间工具,然后再更具体地讨论 Pandas 提供工具。在列出了一些更深入资源之后,我们将回顾一些在 Pandas 处理时间序列数据简短示例。...例如,如果你想要纳秒时间分辨率,你只有足够信息来编码2^64纳秒不到 600 年范围。...频率和偏移 这些 Pandas 时间序列工具基础是频率日期偏移概念。就像我们在上面看到D(天)和H(小时)代码一样,我们可以使用这些代码来指定任何所需频率间隔。

4.6K20

软件测试|数据处理神器pandas教程(八)

前言 前面的文章,我们讲解了pandas处理时间功能,本篇文章我们来介绍pandas时间序列处理。...Pandas 为解决上述问题提供了一套简单、易用方法。 在Python,有内置datetime模块来获取当前时间,通过datetime.now()即可获取本地当前时间。...(14, 0) datetime.time(14, 30) datetime.time(15, 0)] 更改时间频率,上面我们时间频率是以30分钟为间隔,我们也可以将时间间隔修改为一个小时,代码如下...Time Periods 表示时间跨度,一段时间周期,它被定义在 Pandas Periods 类,通过该类提供方法可以实现将频率转换为周期。...更改日频率 使用下列方法可以修改频率,比如按“天”为“月”,示例如下: import pandas as pd print(pd.date_range('01/31/2023', periods=5,

1.2K20

《利用Python进行数据分析·第2版》第11章 时间序列11.1 日期和时间数据类型及工具11.2 时间序列基础11.3 日期范围频率以及移动11.4 时区处理时区本地化和转换11.5 时期及其

虽然本章主要讲的是pandas数据类型和高级时间序列处理,但你肯定会在Python其他地方遇到有关datetime数据类型。 11-1 datetime模块数据类型 ?...2000-01-01 1 2000-01-02 3 2000-01-03 1 dtype: int64 11.3 日期范围频率以及移动 pandas原生时间序列一般被认为是不规则...幸运是,pandas有一整套标准时间序列频率以及用于重采样、频率推断、生成固定频率日期范围工具。...11-4列出pandas频率代码和日期偏移量类。 笔记:用户可以根据实际需求自定义一些频率类以便提供pandas所没有的日期逻辑,但具体细节超出了本书范围。...在升采样,目标频率必须是源频率超时期(superperiod)。 如果不满足这些条件,就会引发异常。这主要影响季、年、周计算频率

6.4K60

盘点66个Pandas函数,轻松搞定“数据清洗”!

clip()方法,用于对超过或者低于某些数数值进行截断[1],来保证数值在一定范围。比如每月迟到天数一定是在0-31天之间。...df["迟到天数"] = df["迟到天数"].clip(0,31) 唯一值,unique()是以数组形式返回所有唯一值,而nunique()返回是唯一值个数。...df["数量"].apply(lambda x: x+1) 输出: 文本数据操作 之前我们曾经介绍过经常被人忽视Pandas 文本型数据处理。...数据筛选 如果是筛选行列的话,通常有以下几种方法: 有时我们需要按条件选择部分列、部分行,一般常用方法有: 操作 语法 返回结果 选择列 df[col] Series 索引选择行 df.loc[label...今天我们盘点了66个Pandas函数合集,但实际还有很多函数在本文中没有介绍,包括时间序列、数据拼接与连接等等。此外,那些类似describe()这种大家非常熟悉方法都省去了代码演示。

3.7K11

Python 数据处理:Pandas使用

= 'state' print(frame3) 跟Series一样,values属性也会以二维ndarray形式返回DataFrame数据: import pandas as pd pop1...要对行列索引进行排序(字典顺序),可使用sort_index方法,它将返回一个已排序新对象: import pandas as pd obj = pd.Series(range(4), index...方法将会返回一个含有列Series: print(df.sum()) 传入axis='columns'axis=1将会行进行求和运算: print(df.sum(axis=1))...计算Series唯一值数组,发现顺序返回 value_counts 返回一个Series,其索引为唯一值,其值为频率计数值降序排列 有时,你可能希望得到DataFrame多个相关列一张柱状图...后面的频率值是每个列这些值相应计数。

22.7K10

Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化

列出了最常见属性,但你可以在datetime模块文档上找到详尽列表。...两个日期、datetimes times 之间最小差值 日期/日期时间 object.year 返回年份 object.month 返回月份(1 - 12) object.day 返回日期(...1-32) 时间/日期时间 object.hour 返回小时(0-23) object.minute 返回分钟(0-59) object.second 返回秒数(0-59) pythonprint...apple_price_history.index.day_name() 频率选择 当时间序列是均匀间隔时,可以在Pandas频率关联起来。...hours = pd.date_range('2019-01-01', periods=24, freq='H') print(hours) pandas.DataFrame.asfreq 返回具有新频率数据帧序列

53400

Pandas 概览

经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL Excel 类似的,含异构列表格数据。...有序和无序(即非固定频率时间序列数据。 带行列标签矩阵数据,包括同构异构型数据。 任意其它形式观测、统计数据集。数据转入 Pandas 数据结构时不必事先标记。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入删除 DataFrame 等多维对象列; 自动、显式数据对齐:显式地将对象与一组标签对齐...格式保存 / 加载数据; 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。...处理 DataFrame 等表格数据时,index(行) columns(列)比 axis 0 和 axis 1 更直观。

1.3K10

数据导入与预处理-第6章-03数据规约

stack(level=- 1, dropna=True) level:表示索引级别,默认为-1,即操作内层索引,若设为0,则会操作外层索引。...降采样常见于时间序列类型数据。假设现有一组日统计包含开盘价、收盘价等信息股票数据(非真实数据),该组数据采集频率由每天采集一次变为每7天采集一次。...左天采集一个月股票数据,右7天采集一个月股票数据,且每行数据对应左表相同周期内数据平均值。...3.3.2 降采样resample用法 pandas可以使用resample()方法实现降采样操作。resample方法,是针对时间序列频率转换和重采样简便方法。...axis:表示沿哪个轴完成降采样操作,可以取值为0/‘index’1/‘columns’,默认值为0

1.4K20

数据分析 | 一文了解数据分析必须掌握库-Pandas

经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL Excel 类似的,含异构列表格数据。...有序和无序(即非固定频率时间序列数据。 带行列标签矩阵数据,包括同构异构型数据。 任意其它形式观测、统计数据集。数据转入 Pandas 数据结构时不必事先标记。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入删除 DataFrame 等多维对象列; 自动、显式数据对齐:显式地将对象与一组标签对齐...格式保存 / 加载数据; 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。...处理 DataFrame 等表格数据时,index(行) columns(列)比 axis 0 和 axis 1 更直观。

1.1K10

Pandas 概览

经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL Excel 类似的,含异构列表格数据。...有序和无序(即非固定频率时间序列数据。 带行列标签矩阵数据,包括同构异构型数据。 任意其它形式观测、统计数据集。数据转入 Pandas 数据结构时不必事先标记。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入删除 DataFrame 等多维对象列; 自动、显式数据对齐:显式地将对象与一组标签对齐...格式保存 / 加载数据; 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。...处理 DataFrame 等表格数据时,index(行) columns(列)比 axis 0 和 axis 1 更直观。

1.1K00

Pandas库常用方法、函数集合

:合并多个dataframe,类似sqlunion pivot:按照指定行列重塑表格 pivot_table:数据透视,类似excel透视 cut:将一组数据分割成离散区间,适合将数值进行分类...qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉,用于计算两个多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据框列“堆叠”为一个层次化...:对每个分组应用自定义聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素在每个分组排名 filter:根据分组某些属性筛选数据 sum:计算分组总和...pandas.plotting.bootstrap_plot:用于评估统计数据不确定性,例如均值,中位数,中间范围pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据模式...cut: 将连续数据划分为离散箱 period_range: 生成周期范围 infer_freq: 推断时间序列频率 tz_localize: 设置时区 tz_convert: 转换时区 dt:

25110

数据分析篇 | Pandas 概览

经过多年不懈努力,Pandas 离这个目标已经越来越近了。 Pandas 适用于处理以下类型数据: 与 SQL Excel 类似的,含异构列表格数据。...有序和无序(即非固定频率时间序列数据。 带行列标签矩阵数据,包括同构异构型数据。 任意其它形式观测、统计数据集。数据转入 Pandas 数据结构时不必事先标记。...Pandas 就像一把万能瑞士军刀,下面仅列出了它部分优势 : 处理浮点与非浮点数据里缺失数据,表示为 NaN; 大小可变:插入删除 DataFrame 等多维对象列; 自动、显式数据对齐:显式地将对象与一组标签对齐...格式保存 / 加载数据; 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。...处理 DataFrame 等表格数据时,index(行) columns(列)比 axis 0 和 axis 1 更直观。

1.2K20

手把手教你用直方图、饼图和条形图做数据分析(Python代码)

对于定量数据,要想了解其分布形式是对称还是非对称、发现某些特大特小可疑值,可做出频率分布、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性数据,可用饼图和条形图直观地显示其分布情况。...第四步:列出频率分布。 第五步:绘制频率分布直方图。 遵循主要原则如下: 各组之间必须是相互排斥。 各组必须将所有的数据包含在内。 各组组宽最好相等。...3-2是菜品“捞起生鱼片”在2014年第二个季度销售数据,绘制销售量频率分布频率分布图,对该定量数据做出相应分析。 ? ▲3-2 “捞起生鱼片”销售情况 1....绘制频率分布直方 根据分组区间得到如表3-4所示频率分布。 其中,第1列将数据所在范围分成若干组段,其中第1个组段要包括最小值,最后一个组段要包括最大值。...绘制频率分布直方图 若以2014年第二季度“捞起生鱼片”这道菜每天销售额组段为横轴,以各组段频率密度(频率与组距之比)为纵轴,3-4数据可绘制成频率分布直方图,如代码清单3-3所示。

1.8K11

《python数据分析与挖掘实战》笔记第3章

对于定量数据,欲了解其分布形式是对称还是非对称,发现某些特大特小可疑值,可通过绘制频率分布、绘制频率分布直方 图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况...定量数据分布分析 对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要问题,一般 按照以下步骤进行。 1)求极差。 2)决定组距与组数。 3)决定分点。 4)列出频率分布。...(3 )判定系数 判定系数是相关系数平方,用r平方表示;用来衡量回归方程对y解释程度。判定系数取值范围0=<r平方<=1。...3-8 Pandas主要统计特征函数 方法名 函数功能 所属库 sum() 计算数据样本总和(列计算) Pandas mean() 计算数据样本算术平均数 Pandas var() 计算数据样本方差...3-9 Pandas累积统计特征函数 方法名 函数功能 所属库 cumsum() 依次给出前1、2、…、n个数Pandas cumprod() 依次给出前1、2、…、n个数Pandas cummax

2K20
领券