首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 学习手册中文第二版:1~5

将数据分组到通用篮子中 聚合具有相似特征的数据 应用函数计算含义或执行转换 查询和切片来探索整体 重组为其他形式 为不同类型的数据建模,例如类别,连续,离散和时间序列 将数据重新采样到不同的频率 存在许多数据处理工具...以下显示Missoula列中大于82度的值: 然后可以将表达式的结果应用于数据帧(和序列)的[]运算符,这仅导致返回求值为True的表达式的行: 该技术在 pandas 术语中称为布尔选择,它将构成基于特定列中的值选择行的基础...代替单个值序列,数据帧的每一行可以具有多个值,每个值都表示为一列。 然后,数据帧的每一行都可以对观察对象的多个相关属性进行建模,并且每一列都可以表示不同类型的数据。...创建数据帧期间的行对齐 选择数据帧的特定列和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和列 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...访问数据帧内的数据 数据帧由行和列组成,并具有从特定行和列中选择数据的结构。 这些选择使用与Series相同的运算符,包括[],.loc[]和.iloc[]。

8.3K10

媲美Pandas?一文入门Python的Datatable操作

() pandas_df = datatable_df.to_pandas() ‍下面,将 datatable 读取的数据帧转换为 Pandas dataframe 形式,并比较所需的时间,如下所示:...因此,通过 datatable 包导入大型的数据文件再将其转换为 Pandas dataframe 的做法是个不错的主意。...帧的基础属性 下面来介绍 datatable 中 frame 的一些基础属性,这与 Pandas 中 dataframe 的一些功能类似。...统计总结 在 Pandas 中,总结并计算数据的统计信息是一个非常消耗内存的过程,但这个过程在 datatable 包中是很方便的。...▌帧排序 datatable 排序 在 datatable 中通过特定的列来对帧进行排序操作,如下所示: %%timedatatable_df.sort('funded_amnt_inv')_____

7.7K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas库常用方法、函数集合

    Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。...agg:对每个分组应用自定义的聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同的结果 rank:计算元素在每个分组中的排名 filter:根据分组的某些属性筛选数据 sum...:计算分组的标准差和方差 describe:生成分组的描述性统计摘要 first和 last:获取分组中的第一个和最后一个元素 nunique:计算分组中唯一值的数量 cumsum、cummin、cummax...cut: 将连续数据划分为离散的箱 period_range: 生成周期范围 infer_freq: 推断时间序列的频率 tz_localize: 设置时区 tz_convert: 转换时区 dt:...: 用于展开窗口的操作 at_time, between_time: 在特定时间进行选择 truncate: 截断时间序列

    31510

    Pandas 学习手册中文第二版:11~15

    十一、合并,连接和重塑数据 数据通常被建模为一组实体,相关值的逻辑结构由名称(属性/变量)引用,并具有按行组织的多个样本或实例。...实体往往代表现实世界中的事物,例如一个人,或者在物联网中,是一个传感器。 然后,使用单个数据帧对每个特定实体及其度量进行建模。 通常需要在模型中的实体上和实体之间执行各种任务。...合并来自多个 Pandas 对象的数据 合并的一个实际示例是从订单中查找客户名称。 为了在 Pandas 中证明这一点,我们将使用以下两个DataFrame对象。...具体而言,在本章中,我们将介绍: 数据分析的拆分,应用和合并模式概述 按单个列的值分组 访问 Pandas 分组的结果 使用多列中的值进行分组 使用索引级别分组 将聚合函数应用于分组数据 数据转换概述...转换的一般过程 GroupBy对象的.transform()方法将一个函数应用于数据帧中的每个值,并返回另一个具有以下特征的DataFrame: 它的索引与所有组中索引的连接相同 行数等于所有组中的行数之和

    3.4K20

    Pandas 学习手册中文第二版:6~10

    -2e/img/00236.jpeg)] 使用此索引,DataFrame中的行查找非常高效,因为它们是使用连续的内存中数组执行的。...从结果索引中删除为其指定值的级别。 level参数可用于选择在指定级别具有特定索引值的行。 以下代码选择索引的Symbol分量为ALLE的行。...在本节中,我们将研究其中的许多内容,包括: 在数据帧或序列上执行算术 获取值的计数 确定唯一值(及其计数) 查找最大值和最小值 找到 n 个最小和 n 个最大的值 计算累计值 在数据帧或序列上执行算术...然后,每一行代表特定日期的值的样本。 将 CSV 文件读入数据帧 data/MSFT.CSV中的数据非常适合读入DataFrame。 它的所有数据都是完整的,并且在第一行中具有列名。...想象一下,如果您的数据代表一组增加的值,例如白天的温度升高。 如果传感器在几个采样周期内停止响应,则可以通过内插法以较高的确定性推断出缺失的数据。 绝对比将值设置为 0 更好。

    2.3K20

    pandas 入门2 :读取txt文件以及描述性分析

    因此,如果两家医院报告了婴儿名称“Bob”,则该数据将具有名称Bob的两个值。我们将从创建随机的婴儿名称开始。 ?...使用zip函数合并名称和出生数据集。 ? 我们基本上完成了创建数据集。我们现在将使用pandas库将此数据集导出到csv文件中。 df将是一个 DataFrame对象。...为了纠正这个问题,我们将header参数传递给read_csv函数并将其设置为None(在python中表示null) ? 现在让我们看看dataframe的最后五个记录 ?...在pandas中,这些是dataframe索引的一部分。您可以将索引视为sql表的主键,但允许索引具有重复项。...我们已经知道有1,000条记录而且没有任何记录丢失(非空值)。可以验证“名称”列仍然只有五个唯一的名称。 可以使用数据帧的unique属性来查找“Names”列的所有唯一记录。 ?

    2.8K30

    panda python_12个很棒的Pandas和NumPy函数,让分析事半功倍

    它返回在特定条件下值的索引位置。这差不多类似于在SQL中使用的where语句。请看以下示例中的演示。  ...以下是Pandas的优势:  轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)  大小可变性:可以从DataFrame和更高维的对象中插入和删除列  自动和显式的数据对齐:在计算中,可以将对象显式对齐到一组标签...,或者用户可以直接忽略标签,并让Series,DataFrame等自动对齐数据  强大灵活的分组功能,可对数据集执行拆分-应用-合并操作,以汇总和转换数据  轻松将其他Python和NumPy数据结构中的不规则的...1. apply()  Apply() 函数允许用户传递函数并将其应用于Pandas序列中每个单一值。  ...将数据帧分配给另一个数据帧时,在另一个数据帧中进行更改,其值也会进行同步更改。为了避免出现上述问题,可以使用copy()函数。

    5.1K00

    pandas时间序列常用方法简介

    需要指出,时间序列在pandas.dataframe数据结构中,当该时间序列是索引时,则可直接调用相应的属性;若该时间序列是dataframe中的一列时,则需先调用dt属性再调用接口。...3.分别访问索引序列中的时间和B列中的日期,并输出字符串格式 ? 03 筛选 处理时间序列的另一个常用需求是筛选指定范围的数据,例如选取特定时段、特定日期等。...仍然以前述的时间索引记录为例,首先将其按4小时为周期进行采样,此时在每个4小时周期内的所有记录汇聚为一条结果,所以自然涉及到聚合函数的问题,包括计数、求均值、累和等等。 ?...,无论是上采样还是下采样,其采样结果范围是输入记录中的最小值和最大值覆盖的范围,所以当输入序列中为两段不连续的时间序列记录时,可能会出现中间大量不需要的结果(笔者亲历天坑),同时在上图中也可发现从4小时上采样为...例如,求解连续3条记录的均值,则可简单实现如下: ? 注意到由于窗口长度设置为3,前两条记录因为"向前凑不齐"3条,所以结果为空值。当然,就这一特定需求而言,也可由shift函数实现: ?

    5.8K10

    Python数据分析 | Pandas核心操作函数大全

    本篇为pandas系列的导语,对pandas进行简单介绍,整个系列覆盖以下内容: 图解Pandas核心操作函数大全 图解Pandas数据变换高级函数 Pandas数据分组与操作 本篇为『图解Pandas...如果数据是ndarray,则传递的索引必须具有相同的长度。...如果传递了索引,索引中与标签对应的数据中的值将被拉出。...Series有很多的聚合函数,可以方便的统计最大值、求和、平均值等 [4c686eea24071932103c426df1fe648f.png] 二、DataFrame(数据帧) DataFrame是...Pandas中使用最频繁的核心数据结构,表示的是二维的矩阵数据表,类似关系型数据库的结构,每一列可以是不同的值类型,比如数值、字符串、布尔值等等。

    3.2K41

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...索引值也是持久的,所以如果你对 DataFrame 中的行重新排序,特定行的标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 的副本。...我们可以用多种不同的方式构建一个DataFrame,但对于少量的值,通常将其指定为 Python 字典会很方便,其中键是列名,值是数据。...查找子串的位置 FIND电子表格函数返回子字符串的位置,第一个字符为 1。 您可以使用 Series.str.find() 方法查找字符串列中字符的位置。find 搜索子字符串的第一个位置。...填充柄 在一组特定的单元格中按照设定的模式创建一系列数字。在电子表格中,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个值然后拖动来完成。

    19.6K20

    超全的pandas数据分析常用函数总结:下篇

    5.6 切割数据 对date字段的值依次进行分列,并创建数据表,索引值为data的索引列,列名称为year\month\day。...数据提取 下面这部分会比较绕: loc函数按标签值进行提取,iloc按位置进行提取pandas.DataFrame.loc() 允许输入的值: 单个标签,例如5或’a’,(请注意,5被解释为索引的标签,...6.2 区域索引 6.2.1 用loc取连续的多行 提取索引值为2到索引值为4的所有行,即提取第3行到第5行,注意:此时切片的开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续的多行 提取索引值为2和索引值为4的所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...在筛选后的数据中,对money进行求和 输出结果:9.0 8.

    3.9K20

    超全的pandas数据分析常用函数总结:下篇

    5.6 切割数据 对date字段的值依次进行分列,并创建数据表,索引值为data的索引列,列名称为year\month\day。...数据提取 下面这部分会比较绕: loc函数按标签值进行提取,iloc按位置进行提取pandas.DataFrame.loc() 允许输入的值: 单个标签,例如5或’a’,(请注意,5被解释为索引的标签,...6.2 区域索引 6.2.1 用loc取连续的多行 提取索引值为2到索引值为4的所有行,即提取第3行到第5行,注意:此时切片的开始和结束都包括在内。 data.loc[2:4] 输出结果: ?...6.2.2 用loc取不连续的多行 提取索引值为2和索引值为4的所有行,即提取第3行和第5行。 data.loc[[2,4]] 输出结果: ?...# 在筛选后的数据中,对money进行求和 输出结果:9.0 8.

    5K20

    精品课 - Python 数据分析

    Pandas WHY 下图左边的「二维 NumPy 数组」 仅仅储存了一组数值 (具体代表什么意思却不知道),而右边的「数据帧 DataFrame」一看就知道这是平安银行和茅台从 2018-1-3 到...---- WHAT Pandas DataFrame 是一种数据结构 (Series 可不严谨的看成一维的 DataFrame,而 Panel 已经被废弃)。...DataFrame 数据帧可以看成是 数据帧 = 二维数组 + 行索引 + 列索引 在 Pandas 里出戏的就是行索引和列索引,它们 可基于位置 (at, loc),可基于标签 (iat..., pivot_table, crosstab) 数据可视 (df.plot( kind='type') ) 数据处理 (处理缺失值和离群值、编码离散值,分箱连续值) 总体内容用思维导图来表示。...这波操作称被 Hadley Wickham 称之为拆分-应用-结合,具体而言,该过程有三步: 在 split 步骤:将数据帧按照指定的“键”分组 在 apply 步骤:在各组上平行执行四类操作: 整合型

    3.3K40

    Pandas 秘籍:6~11

    但是,如果我们可以将具有连续值的列转换为离散列,方法是将每个值放入一个桶中,四舍五入或使用其他映射,则将它们分组是有意义的。 准备 在此秘籍中,我们探索航班数据集以发现不同旅行距离的航空公司分布。...NumPy 并不容易进行分组操作,因此让我们使用数据帧构造器创建一个新的数据帧并检查它是否等于步骤 3 中的flights_sorted数据帧: >>> flights_sort2 = pd.DataFrame...原始的第一行数据成为结果序列中的前三个值。 在步骤 2 中重置索引后,pandas 将我们的数据帧的列默认设置为level_0,level_1和0。...通常,作为数据分析师,您将需要在 Web 上查找数据,并使用可以将其抓取为可通过本地工作站解析的格式的工具。...准备 在本秘籍中,我们将使用read_html函数,该函数功能强大,可以在线从表中抓取数据并将其转换为数据帧。 您还将学习如何检查网页以查找某些元素的基础 HTML。

    34K10
    领券