首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 学习手册中文第二版:1~5

数据分组到通用篮子 聚合具有相似特征数据 应用函数计算含义或执行转换 查询和切片来探索整体 重组其他形式 不同类型数据建模,例如类别,连续,离散和时间序列 将数据重新采样到不同频率 存在许多数据处理工具...以下显示Missoula列中大于82度: 然后可以将表达式结果应用于数据(和序列)[]运算符,这仅导致返回求值True表达式行: 该技术 pandas 术语称为布尔选择,它将构成基于特定选择行基础...代替单个序列,数据每一行可以具有多个,每个都表示一列。 然后,数据每一行都可以对观察对象多个相关属性进行建模,并且每一列都可以表示不同类型数据。...创建数据期间行对齐 选择数据特定列和行 将切片应用于数据 通过位置和标签选择数据行和列 标量值查找 应用于数据布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章示例...访问数据数据 数据由行和列组成,具有特定行和列中选择数据结构。 这些选择使用与Series相同运算符,包括[],.loc[]和.iloc[]。

8.1K10

媲美Pandas?一文入门PythonDatatable操作

() pandas_df = datatable_df.to_pandas() ‍下面,将 datatable 读取数据转换为 Pandas dataframe 形式,比较所需时间,如下所示:...因此,通过 datatable 包导入大型数据文件再将其转换为 Pandas dataframe 做法是个不错主意。...基础属性 下面来介绍 datatable frame 一些基础属性,这与 Pandas dataframe 一些功能类似。...统计总结 Pandas ,总结计算数据统计信息是一个非常消耗内存过程,但这个过程 datatable 包是很方便。...▌排序 datatable 排序 datatable 通过特定列来对进行排序操作,如下所示: %%timedatatable_df.sort('funded_amnt_inv')_____

7.5K50
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas库常用方法、函数集合

Pandas是Python数据分析处理核心第三方库,它使用二维数组形式,类似Excel表格,封装了很多实用函数方法,让你可以轻松地对数据集进行各种操作。...agg:对每个分组应用自定义聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素每个分组排名 filter:根据分组某些属性筛选数据 sum...:计算分组标准差和方差 describe:生成分组描述性统计摘要 first和 last:获取分组第一个和最后一个元素 nunique:计算分组唯一数量 cumsum、cummin、cummax...cut: 将连续数据划分为离散箱 period_range: 生成周期范围 infer_freq: 推断时间序列频率 tz_localize: 设置时区 tz_convert: 转换时区 dt:...: 用于展开窗口操作 at_time, between_time: 特定时间进行选择 truncate: 截断时间序列

25110

Pandas 学习手册中文第二版:11~15

十一、合并,连接和重塑数据 数据通常被建模一组实体,相关逻辑结构由名称(属性/变量)引用,具有按行组织多个样本或实例。...实体往往代表现实世界事物,例如一个人,或者物联网,是一个传感器。 然后,使用单个数据对每个特定实体及其度量进行建模。 通常需要在模型实体上和实体之间执行各种任务。...合并来自多个 Pandas 对象数据 合并一个实际示例是从订单查找客户名称。 为了 Pandas 证明这一点,我们将使用以下两个DataFrame对象。...具体而言,本章,我们将介绍: 数据分析拆分,应用和合并模式概述 按单个列分组 访问 Pandas 分组结果 使用多列进行分组 使用索引级别分组 将聚合函数应用于分组数据 数据转换概述...转换一般过程 GroupBy对象.transform()方法将一个函数应用于数据每个返回另一个具有以下特征DataFrame: 它索引与所有组索引连接相同 行数等于所有组行数之和

3.3K20

Pandas 学习手册中文第二版:6~10

-2e/img/00236.jpeg)] 使用此索引,DataFrame查找非常高效,因为它们是使用连续内存数组执行。...从结果索引删除其指定级别。 level参数可用于选择指定级别具有特定索引行。 以下代码选择索引Symbol分量ALLE行。...本节,我们将研究其中许多内容,包括: 在数据或序列上执行算术 获取值计数 确定唯一(及其计数) 查找最大和最小 找到 n 个最小和 n 个最大 计算累计数据或序列上执行算术...然后,每一行代表特定日期样本。 将 CSV 文件读入数据 data/MSFT.CSV数据非常适合读入DataFrame。 它所有数据都是完整,并且第一行具有列名。...想象一下,如果您数据代表一组增加,例如白天温度升高。 如果传感器几个采样周期内停止响应,则可以通过内插法以较高的确定性推断出缺失数据。 绝对比将设置 0 更好。

2.2K20

pandas 入门2 :读取txt文件以及描述性分析

因此,如果两家医院报告了婴儿名称“Bob”,则该数据具有名称Bob两个。我们将从创建随机婴儿名称开始。 ?...使用zip函数合并名称和出生数据集。 ? 我们基本上完成了创建数据集。我们现在将使用pandas库将此数据集导出到csv文件。 df将是一个 DataFrame对象。...为了纠正这个问题,我们将header参数传递给read_csv函数并将其设置None(python中表示null) ? 现在让我们看看dataframe最后五个记录 ?...pandas,这些是dataframe索引一部分。您可以将索引视为sql表主键,但允许索引具有重复项。...我们已经知道有1,000条记录而且没有任何记录丢失(非空)。可以验证“名称”列仍然只有五个唯一名称。 可以使用数据unique属性来查找“Names”列所有唯一记录。 ?

2.7K30

pandas时间序列常用方法简介

需要指出,时间序列pandas.dataframe数据结构,当该时间序列是索引时,则可直接调用相应属性;若该时间序列是dataframe一列时,则需先调用dt属性再调用接口。...3.分别访问索引序列时间和B列日期,输出字符串格式 ? 03 筛选 处理时间序列另一个常用需求是筛选指定范围数据,例如选取特定时段、特定日期等。...仍然以前述时间索引记录例,首先将其按4小时周期进行采样,此时每个4小时周期所有记录汇聚一条结果,所以自然涉及到聚合函数问题,包括计数、求均值、累和等等。 ?...,无论是上采样还是下采样,其采样结果范围是输入记录最小和最大覆盖范围,所以当输入序列两段不连续时间序列记录时,可能会出现中间大量不需要结果(笔者亲历天坑),同时在上图中也可发现从4小时上采样...例如,求解连续3条记录均值,则可简单实现如下: ? 注意到由于窗口长度设置3,前两条记录因为"向前凑不齐"3条,所以结果。当然,就这一特定需求而言,也可由shift函数实现: ?

5.7K10

panda python_12个很棒Pandas和NumPy函数,让分析事半功倍

它返回特定条件下索引位置。这差不多类似于SQL中使用where语句。请看以下示例演示。  ...以下是Pandas优势:  轻松处理浮点数据和非浮点数据缺失数据(表示NaN)  大小可变性:可以从DataFrame和更高维对象插入和删除列  自动和显式数据对齐:计算,可以将对象显式对齐到一组标签...,或者用户可以直接忽略标签,让Series,DataFrame等自动对齐数据  强大灵活分组功能,可对数据集执行拆分-应用-合并操作,以汇总和转换数据  轻松将其他Python和NumPy数据结构不规则...1. apply()  Apply() 函数允许用户传递函数并将其应用于Pandas序列每个单一。  ...将数据分配给另一个数据时,另一个数据中进行更改,其也会进行同步更改。为了避免出现上述问题,可以使用copy()函数。

5.1K00

Python数据分析 | Pandas核心操作函数大全

本篇pandas系列导语,对pandas进行简单介绍,整个系列覆盖以下内容: 图解Pandas核心操作函数大全 图解Pandas数据变换高级函数 Pandas数据分组与操作 本篇『图解Pandas...如果数据是ndarray,则传递索引必须具有相同长度。...如果传递了索引,索引与标签对应数据将被拉出。...Series有很多聚合函数,可以方便统计最大、求和、平均值等 [4c686eea24071932103c426df1fe648f.png] 二、DataFrame(数据) DataFrame是...Pandas中使用最频繁核心数据结构,表示是二维矩阵数据表,类似关系型数据结构,每一列可以是不同类型,比如数值、字符串、布尔等等。

3.1K41

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas ,索引可以设置一个(或多个)唯一,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引实际上可用于引用行。...索引也是持久,所以如果你对 DataFrame 行重新排序,特定标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 副本。...我们可以用多种不同方式构建一个DataFrame,但对于少量,通常将其指定为 Python 字典会很方便,其中键是列名,数据。...查找位置 FIND电子表格函数返回字符串位置,第一个字符 1。 您可以使用 Series.str.find() 方法查找字符串列字符位置。find 搜索子字符串第一个位置。...填充柄 一组特定单元格按照设定模式创建一系列数字。电子表格,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个然后拖动来完成。

19.5K20

超全pandas数据分析常用函数总结:下篇

5.6 切割数据 对date字段依次进行分列,创建数据表,索引data索引列,列名称为year\month\day。...数据提取 下面这部分会比较绕: loc函数按标签进行提取,iloc按位置进行提取pandas.DataFrame.loc() 允许输入: 单个标签,例如5或’a’,(请注意,5被解释索引标签,...6.2 区域索引 6.2.1 用loc取连续多行 提取索引2到索引4所有行,即提取第3行到第5行,注意:此时切片开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续多行 提取索引2和索引4所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...筛选后数据,对money进行求和 输出结果:9.0 8.

3.9K20

超全pandas数据分析常用函数总结:下篇

5.6 切割数据 对date字段依次进行分列,创建数据表,索引data索引列,列名称为year\month\day。...数据提取 下面这部分会比较绕: loc函数按标签进行提取,iloc按位置进行提取pandas.DataFrame.loc() 允许输入: 单个标签,例如5或’a’,(请注意,5被解释索引标签,...6.2 区域索引 6.2.1 用loc取连续多行 提取索引2到索引4所有行,即提取第3行到第5行,注意:此时切片开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续多行 提取索引2和索引4所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...# 筛选后数据,对money进行求和 输出结果:9.0 8.

4.9K20

精品课 - Python 数据分析

Pandas WHY 下图左边「二维 NumPy 数组」 仅仅储存了一组数值 (具体代表什么意思却不知道),而右边数据 DataFrame」一看就知道这是平安银行和茅台从 2018-1-3 到...---- WHAT Pandas DataFrame 是一种数据结构 (Series 可不严谨看成一维 DataFrame,而 Panel 已经被废弃)。...DataFrame 数据可以看成是 数据 = 二维数组 + 行索引 + 列索引 Pandas 里出戏就是行索引和列索引,它们 可基于位置 (at, loc),可基于标签 (iat..., pivot_table, crosstab) 数据可视 (df.plot( kind='type') ) 数据处理 (处理缺失和离群、编码离散,分箱连续) 总体内容用思维导图来表示。...这波操作称被 Hadley Wickham 称之为拆分-应用-结合,具体而言,该过程有三步: split 步骤:将数据按照指定“键”分组 apply 步骤:各组上平行执行四类操作: 整合型

3.3K40

Pandas 秘籍:6~11

但是,如果我们可以将具有连续列转换为离散列,方法是将每个放入一个桶,四舍五入或使用其他映射,则将它们分组是有意义。 准备 在此秘籍,我们探索航班数据集以发现不同旅行距离航空公司分布。...NumPy 并不容易进行分组操作,因此让我们使用数据构造器创建一个新数据检查它是否等于步骤 3 flights_sorted数据: >>> flights_sort2 = pd.DataFrame...原始第一行数据成为结果序列前三个步骤 2 重置索引后,pandas 将我们数据列默认设置level_0,level_1和0。...通常,作为数据分析师,您将需要在 Web 上查找数据使用可以将其抓取可通过本地工作站解析格式工具。...准备 本秘籍,我们将使用read_html函数,该函数功能强大,可以在线从表抓取数据将其转换为数据。 您还将学习如何检查网页以查找某些元素基础 HTML。

33.8K10
领券