首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 学习手册中文第二版:11~15

具体而言,在本章中,我们将介绍: 数据分析拆分,应用和合并模式概述 单个分组 访问 Pandas 分组结果 使用多进行分组 使用索引级别分组 将聚合函数应用于分组数据 数据转换概述...如果要防止在分组过程中进行排序,请使用sort=False选项。 使用多分组 也可以通过传递列名列表多个进行分组。...由于失败,结果中将省略这两。 结果也未分组,因为转换结果中删除了分组结构。 生成对象将具有与原始DateFrame对象索引匹配索引,在这种情况下为V,W,X,Y和Z。...,多个时间序列对象操作将在其索引Timestamp对齐。...但是,如果我们有一个DataFrame对象日期索引,并且其中每一都是特定股票价格,而行是股票在该日期收盘价,那么我们来说更方便。

3.3K20

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas 中,索引可以设置为一个(或多个)唯一,这就像在工作表中有一用作行标识符一样。与大多数电子表格不同,这些索引实际上可用于引用行。...数据操作 1. 操作 在电子表格中,公式通常在单个单元格中创建,然后拖入其他单元格以计算其他公式。在 Pandas 中,您可以直接整列进行操作。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有和高。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...日期功能 本节将提到“日期”,但时间处理方式类似。 我们可以将日期功能分为两部分:解析和输出。在Excel电子表格中,日期通常会自动解析,但如果您需要,还有一个 DATEVALUE 函数。...在 Pandas 中,您通常希望在使用日期进行计算时将日期保留为日期时间对象。输出部分日期(例如年份)是通过电子表格中日期函数和 Pandas日期时间属性完成

19.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

初学者使用Pandas特征工程

使用pandas Dataframe,可以轻松添加/删除,切片,建立索引以及处理空。 现在,我们已经了解了pandas基本功能,我们将专注于专门用于特征工程pandas。 !...独热编码方法是将类别自变量转换为多个二进制,其中1表示属于该类别的观察结果。 独热编码被明确地用于没有自然顺序类别变量。示例:Item_Type。...Groupby是一个函数,可以将数据分为各种形式,以获取表面上不可用信息。 GroupBy允许我们根据不同功能对数据进行分组,从而获得有关你数据更准确信息。...第一行,我们可以理解,如果Item_Identifier为FD22,Item_Type为Snack Foods,则平均销售额将为3232.54。 这就是我们如何创建多个方式。...注意:到目前为止,我们正在处理数据集没有任何日期时间变量。在这里,我们使用 NYC Taxi Trip Duration 数据来演示如何通过日期时间变量提取特征。

4.8K31

Pandas库常用方法、函数集合

,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据...“堆叠”为一个层次化Series unstack: 将层次化Series转换回数据形式 append: 将一行或多行数据追加到数据末尾 分组 聚合 转换 过滤 groupby:按照指定多个数据进行分组...、cumprod:计算分组累积和、最小、最大、累积乘积 数据清洗 dropna: 丢弃包含缺失行或 fillna: 填充或替换缺失 interpolate: 缺失进行 duplicated...: 替换字符串中特定字符 astype: 将一数据类型转换为指定类型 sort_values: 对数据按照指定进行排序 rename: 或行进行重命名 drop: 删除指定或行 数据可视化...、趋势和季节性 pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征数据集中各个样本之间关系 pandas.plotting.scatter_matrix

25110

Pandas 秘籍:6~11

第 3 步和第 4 步将每个级别栈,这将导致数据具有单级索引。 现在,性别比较每个种族薪水要容易得多。 更多 如果有多个分组和聚合,则直接结果将是数据帧而不是序列。...日期工具之间区别 智能分割时间序列 使用仅适用于日期时间索引方法 计算每周犯罪数量 分别汇总每周犯罪和交通事故 工作日和年份衡量犯罪 使用日期时间索引和匿名函数进行分组时间戳和另一分组...最典型地,时间在每个数据点之间平均间隔。 Pandas 在处理日期,在不同时间段内进行汇总,不同时间进行采样等方面具有出色功能。...在步骤 2 中,我们创建了一个中间对象,可帮助我们了解如何数据内形成组。resample第一个参数是rule,用于确定如何索引时间进行分组。...可以在步骤 4 中使用这些期间,而不用pd.Grouper日期分组具有日期时间索引数据具有to_period方法,可以将时间戳转换为期间。 它接受偏移别名来确定时间段的确切长度。

33.8K10

Python~Pandas 小白避坑之常用笔记

进行读取、默认(usecols=None)全部读取 skiprows:根据数字索引跳过行数据,默认第0行开始 import pandas as pd sheet1 = pd.read_excel...) 2.缺失统计、剔除: dropna()参数介绍: axis:0(数据进行剔除)、1(数据进行剔除),默认为0 how:any(行中有任意一个空则剔除), all(行中全部为空则剔除...sheet1['日期'].dt.year # 根据日期字段 新增年份 sheet1['季度'] = sheet1['日期'].dt.quarter # 根据日期字段 新增季度 # 年度分组,...利润": "sum"}) print(compute_result) # agg 聚合, 可用列表和字典作为参数, 常用函数:mean/sum/median/min/max/last/first # 分组进行多个函数计算...- map() def data_parse(rows): return '1111' # map() 将该元素迭代传入data_parse()函数作为参数,可以在函数内数据进行处理

3.1K30

pandas基础:使用Python pandas Groupby函数汇总数据,获得对数据更好地理解

注意,在read_cvs行中,包含了一个parse_dates参数,以指示“Transaction Date”日期时间类型数据,这将使以后处理更容易。...在下面的示例中,我们首先按星期几对数据进行分组,然后指定要查看——“Debit(借方)”,最后对分组数据“Debit”执行操作:计数或求和。...,也允许使用正则元组,因此我们可以进一步简化上述内容: 图7 分组 记住,我们目标是希望我们支出数据中获得一些见解,并尝试改善个人财务状况。...Pandas groupby:拆分-应用-合并过程 本质上,groupby指的是涉及以下一个或多个步骤流程: Split拆分:将数据分为组 Apply应用:将操作单独应用于每个组(拆分步骤开始)...在元组中,第一个元素是类别名称,第二个元素是属于特定类别的子集数据。因此,这是拆分步骤。 我们也可以使用内置属性或方法访问拆分数据集,而不是进行迭代。

4.3K50

地理空间数据时间序列分析

幸运是,有工具可以简化这个过程,这正是在本文中尝试内容。 在本文中,将经历一系列过程,从下载光栅数据开始,然后将数据转换为pandas数据,并为传统时间序列分析任务进行设置。...,每个像素表示特定位置降雨量。...较亮像素具有较高降雨。在下一节中,我将提取这些并将它们转换为pandas数据光栅文件中提取数据 现在进入关键步骤——提取每个366个光栅图像像素。...), columns = ['date', 'rainfall_mm']) df.head() 现在我们有了一个pandas数据,但请注意,“日期是字符串,pandas尚不知道它代表日期...将日期设置为索引也是一个好主意。这有助于不同日期日期范围切片和过滤数据,并使绘图任务变得容易。我们首先将日期排序到正确顺序,然后将该设置为索引

11410

数据导入与预处理-第6章-02数据变换

等宽法 等宽法将属性值域最小到最大划分成具有相同宽度区间,具体划分多少个区间由数据本身特点决定,或者由具有业务经验用户指定 等频法 等频法将相同数量划分到每个区间,保证每个区间数量基本一致...基于重塑数据(生成一个“透视”表)。使用来自指定索引/唯一来形成结果DataFrame轴。此函数不支持数据聚合,多个将导致MultiIndex。...pivot_table透视过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机促销价格,保存到以日期、商品名称、价格为标题表格中,若表格商品名称进行轴向旋转操作,即将商品名称一唯一变换成索引...,将出售日期唯一变换成行索引。...axis:表示分组操作轴编号,可以是0或1。参数默认为0,代表沿方向操作。 level:表示标签索引所在级别,默认为None。

19.2K20

使用R或者Python编程语言完成Excel基础操作

用户友好:Excel具有直观用户界面和丰富帮助文档,使得用户即使没有编程背景也能相对容易地学习如何使用它。...以下是一些其他操作: 数据分析工具 数据透视表:大量数据进行快速汇总和分析。 数据透视图:将数据透视表数据以图表形式展示。 条件格式 数据条:根据单元格显示条形图。...色阶:根据单元格变化显示颜色深浅。 图标集:在单元格中显示图标,以直观地表示数据大小。 公式和函数 数组公式:一系列数据进行复杂计算。...data % select(-column_to_remove) 修改数据:直接对数据进行赋值操作。...在实际工作中,直接使用Pandas进行数据处理是非常常见做法,因为Pandas提供了大型数据进行高效操作能力,以及丰富数据分析功能。

12510

Python时间序列分析简介(2)

使用Pandas进行时间重采样 考虑将重采样为 groupby() ,在此我们可以基于任何进行分组,然后应用聚合函数来检查结果。...在这里,我们可以看到随时间变化制造品装运价值。请注意,熊猫我们x轴(时间序列索引处理效果很好。 我们可以通过 在图上使用.set添加标题和y标签来进一步进行修改 。 ?...同样,您可以根据自己选择绘制特定日期。假设我要绘制1995年到2005年每年年初最大。我可以以下方式进行绘制。 ? 在这里,我们指定了 xlim 和 ylim。...看看我如何在xlim中添加日期。主要模式是 xlim = ['开始日期','结束日期']。 ? 在这里,您可以看到1999年到2014年年初最大输出。 学习成果 这使我们到了本文结尾。...希望您现在已经了解 在Pandas中正确加载时间序列数据时间序列数据索引 使用Pandas进行时间重采样 滚动时间序列 使用Pandas绘制时间序列数据

3.4K20

Pandas Merge函数详解

在日常工作中,我们可能会多个数据集中获取数据,并且希望合并两个或多个不同数据集。这时就可以使用Pandas包中Merge函数。...pd.merge(customer, order) 默认情况下,merge函数是这样工作: 将合并,并尝试两个数据集中找到公共,使用来自两个DataFrame(内连接)之间交集。...merge_ordered 在合并时会保留原始数据顺序,并且支持缺失进行处理。...为了进一步理解,我们在合并之前添加日期来对数据进行分组。...merge_asof merge_asof 是一种用于按照最近关键合并两个数据函数。这个函数用于处理时间序列数据或其他有序数据,并且可以根据指定索引按照最接近进行合并。

23830

Python中Pandas相关操作

可以使用标签、位置、条件等方法来选择特定行和。 5.缺失数据处理:Pandas具有处理缺失数据功能,可以检测、删除或替换数据缺失。...6.数据聚合和分组Pandas可以通过分组和聚合操作对数据进行统计和汇总。它支持常见统计函数,如求和、均值、最大、最小等。...8.数据合并和连接:Pandas可以将多个DataFrame对象进行合并和连接,支持基于或行合并操作。...9.时间序列数据处理:Pandas处理时间序列数据提供了广泛支持,包括日期范围生成、时间索引、重采样等操作。....sum() # 进行平均值计算 df['Age'].mean() # 进行分组计算 df.groupby('Name')['Age'].mean() 数据合并和连接 # 按照进行合并

24330

pandas时间序列常用方法简介

进行时间相关数据分析时,时间序列处理是自然而然事情,创建、格式转换到筛选、重采样和聚合统计,pandas都提供了全套方法支持,用熟练简直是异常丝滑。 ?...需要指出,时间序列在pandas.dataframe数据结构中,当时间序列是索引时,则可直接调用相应属性;若时间序列是dataframe中时,则需先调用dt属性再调用接口。...3.分别访问索引序列中时间和B日期,并输出字符串格式 ? 03 筛选 处理时间序列另一个常用需求是筛选指定范围数据,例如选取特定时段、特定日期等。...需注意方法主要用于数据时间筛选,其最大优势在于可指定时间属性比较,例如可以指定time字段根据时间筛选而不考虑日期范围,也可以指定日期范围而不考虑时间取值,这在有些场景下是非常实用。 ?...仍然以前述时间索引记录为例,首先将其4小时为周期进行采样,此时在每个4小时周期内所有记录汇聚为一条结果,所以自然涉及到聚合函数问题,包括计数、求均值、累和等等。 ?

5.7K10

使用 Python 相似索引元素上记录进行分组

在 Python 中,可以使用 pandas 和 numpy 等库类似索引元素上记录进行分组,这些库提供了多个函数来执行分组。基于相似索引元素记录分组用于数据分析和操作。...在本文中,我们将了解并实现各种方法相似索引元素上记录进行分组。 方法一:使用熊猫分组() Pandas 是一个强大数据操作和分析库。...groupby() 函数允许我们根据一个或多个索引元素记录进行分组。让我们考虑一个数据集,其中包含学生分数数据集,如以下示例所示。...语法 grouped = df.groupby(key) 在这里,Pandas GroupBy 方法用于基于一个或多个键对数据帧中数据进行分组。“key”参数表示数据分组所依据一个或多个。...生成分组”对象可用于分别对每个组执行操作和计算。 例 在下面的示例中,我们使用 groupby() 函数“名称”记录进行分组。然后,我们使用 mean() 函数计算每个学生平均分数。

19230

RFM会员价值度模型

订单时间中找到各个会员距离截止时间节点最近订单时间作为最近购买时间;以会员ID为维度统计每个用户订单数量作为购买频率;将用户多个订单订单金额求和得到总订单金额。...  会员ID做聚合   这里使用groupby分组,以year和会员ID为联合主键,设置as_index=False意味着year和会员ID不作为index,而是普通数据结果。...F和M规则是越大,等级越高 而R规则是越小,等级越高,因此labels规则与F和M相反 在labels指定时需要注意,4个区间结果是划分为3份  将3作为字符串组合为新分组 代码中,先针对...3使用astype方法将数值型转换为字符串型 然后使用pandas字符串处理库str中cat方法做字符串合并,方法可以将右侧数据合并到左侧 再连续使用两个str.cat方法得到总R、F、M字符串组合...第1行代码使用数据groupby以rfm_group和year为联合对象,以会员ID会为计算维度做计数,得到每个RFM分组、年份下会员数量 第2行代码结果重命名 第3行代码将rfm分组转换为

22610

Python时间序列分析苹果股票数据:分解、平稳性检验、滤波器、滑动窗口平滑、移动平均、可视化

进行投资和交易研究时,对于时间序列数据及其操作要有专业理解。本文将重点介绍如何使用Python和Pandas帮助客户进行时间序列分析来分析股票数据。...让我们将数据 RangeIndex 更改为 DatetimeIndex。为了好看,我们将展示如何使用 read_csv 用 DatetimeIndex 读取数据。...sp500.loc[:,'date'].apply(lambda x: datetime.strptime(x,'%Y-%m-%d')) 时间序列选择 日、月或年选择日期时间 现在我们可以使用索引和loc...apple_price_history.loc['2018-6-1'] 使用日期时间访问器 dt访问器具有多个日期时间属性和方法,可以应用于系列日期时间元素上,这些元素在Series API文档中可以找到...如何处理非平稳时间序列 如果时间序列中存在明显趋势和季节性,可以对这些组成部分进行建模,将它们观测中剔除,然后在残差上训练模型。 去趋势化 有多种方法可以时间序列中去除趋势成分。

53600

Pandas 快速入门(二)

标签数据进行规范化转换,对数据进行替换 本例目的是,数据中存在一些语义标签表达不规范,按照规范方式进行统一修改并进行替换。例如,根据Gender规范人员称呼,职业进行规范。...时间序列 日期时间数据类型 处理时间数据,经常用到Python中 datetime 模块,模块中主要数据类型有。...如果是文件读入数据,可以使用 parse_dates参数来对日期进行解析。 对于日期索引,可以根据日期、月份、年份、日期范围来方便选择数据。...、季度、工作日显示索引,方便进行后续统计汇总。...Groupby 是Pandas中最常用分组函数,返回一个 DataFrameGroupBy 对象,对象实际并不包含数据内容,记录了中间数据,当我们对分组数据进行数学运算时,pandas 再根据对象内信息

1.2K20

Python pandas十分钟教程

Pandas数据处理和数据分析中最流行Python库。本文将为大家介绍一些有用Pandas信息,介绍如何使用Pandas不同函数进行数据探索和操作。...包括如何导入数据集以及浏览,选择,清理,索引,合并和导出数据等常用操作函数使用,这是一个很好快速入门指南,如果你已经学习过pandas,那么这将是一个不错复习。...如果读取文件没有列名,需要在程序中设置header,举例如下: pd.read_csv("Soils.csv",header=None) 如果碰巧数据集中有日期时间类型,那么就需要在括号内设置参数...数据清洗 数据清洗是数据处理一个绕不过去坎,通常我们收集到数据都是不完整,缺失、异常值等等都是需要我们处理Pandas中给我们提供了多个数据清洗函数。...Pandas中提供以下几种方式对数据进行分组。 下面的示例“Contour”数据进行分组,并计算“Ca”中记录平均值,总和或计数。

9.8K50
领券