首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

在本章中,您将学习如何数据中选择一个数据列,该数据列将作为序列返回。 使用此一维对象可以轻松显示不同方法和运算符如何工作。 许多序列方法返回另一个序列作为输出。...准备 此秘籍将数据索引,列和数据提取到单独变量中,然后说明如何同一象继承列和索引。...第二个操作实际上是检查数据是否具有相同标签索引,以及是否具有相同数量元素。 如果不是这种情况,操作将失败。 有关更多信息,请参见第 6 章,“索引对齐”中生成笛卡尔积”秘籍。...对于所有数据,列始终是一种数据类型。 关系数据库也是如此。 总体而言,数据可能由具有不同数据类型列组成。 在内部,Pandas 将相同数据类型列一起存储在块中。...Pandas 根据索引唯一索引还是排序索引不同地实现索引。 有关更多详细信息,请参见以下秘籍。 使用唯一索引和排序索引进行选择 当索引唯一或已排序时,索引选择性能会大大提高。

37.1K10

Pandas 秘籍:6~11

六、索引对齐 在本章中,我们将介绍以下主题: 检查索引对象 生成笛卡尔积 索引爆炸 用不相等索引填充值 追加来自不同数据列 突出显示每一列最大 用方法链复制idxmax 寻找最常见最大 介绍...检查索引对象 如第 1 章,“Pandas 基础”中所讨论,序列和数据每个轴都有一个索引对象,用于标记。 有许多不同类型索引对象,但是它们都具有相同共同行为。...另见 Pandas Index官方文档 生成笛卡尔积 每当两个序列或数据与另一个序列或数据一起操作时,每个对象索引(行索引和列索引)都首先对齐,然后再开始任何操作。...如果笛卡尔积是 Pandas 唯一选择,那么将数据列加在一起这样简单操作将使返回元素数量激增。 在此秘籍中,每个序列具有不同数量元素。...在数据的当前结构中,它无法基于单个列中绘制不同组。 但是,第 23 步显示了如何设置数据,以便 Pandas 可以直接绘制每个总统数据,而不会像这样循环。

33.7K10
您找到你想要的搜索结果了吗?
是的
没有找到

NumPy 和 Pandas 数据分析实用指南:1~6 全

使用 NumPy 时,行和列索引控制不多; 但是对于一个序列,该序列中每个元素都必须具有唯一索引,名称,键,但是您需要考虑一下。...向序列添加索引另一种方法是通过将唯一哈希索引或类似数组对象传递给序列创建方法index参数来创建索引。 我们也可以单独创建索引。 创建索引与创建序列很像,但是我们要求所有都必须唯一。...处理 Pandas 数据丢失数据 在本节中,我们将研究如何处理 Pandas 数据丢失数据。 我们有几种方法可以检测序列和数据都有效缺失数据。...对于分层索引,我们认为数据行或序列中元素由两个或多个索引组合唯一标识。 这些索引具有层次结构,选择一个级别的索引将选择具有该级别索引所有元素。...请注意,plot方法会自动生成一个键和一个图例,并为不同线分配颜色,这些线与我们要绘制数据列相对应。

5.3K30

Pandas 学习手册中文第二版:1~5

序列与 NumPy 数组相似,但是它不同之处在于具有索引,该索引允许项目进行更丰富查找,而不仅仅是从零开始数组索引。 以下 Python 列表创建一个序列。: 输出包括两列信息。...例如,以下内容返回温度差平均值: Pandas 数据 Pandas Series只能与每个索引标签关联一个。 要使每个索引标签具有多个,我们可以使用一个数据。...这些列是数据中包含新Series对象,具有原始Series对象复制。 可以使用带有列名或列名列表数组索引器[]访问DataFrame对象中列。...代替单个序列,数据每一行可以具有多个,每个都表示为一列。 然后,数据每一行都可以对观察对象多个相关属性进行建模,并且每一列都可以表示不同类型数据。...此外,我们看到了如何替换特定行和列中数据。 在下一章中,我们将更详细地研究索引使用,以便能够有效地 pandas 对象内检索数据

8.1K10

Pandas 学习手册中文第二版:6~10

六、索引数据 索引是用于优化查询序列或数据工具。 它们很像关系数据库中键,但是功能更强大。 它们为多组数据提供了对齐方式,还带有如何处理数据各种任务(如重采样到不同频率)语义。...具体来说,我们将检查: 序列或数据创建和使用索引索引选择方法 在索引之间移动数据 重新索引 Pandas 对象 序列或数据创建和使用索引 索引可以显式创建,也可以让 Pandas 隐式创建...索引中多个级别的规范允许使用每个级别的不同组合来有效选择数据不同子集。 从技术上讲,具有多个层次结构 Pandas 索引称为MultiIndex。...最后,我们使用分层索引研究进行了总结,该分层索引能够有效地检索与多个索引标签匹配数据,从而为我们提供了选择数据子集有力手段。 至此,我们已经涵盖了 Pandas 许多基本建模部分。...具体来说,您将学习: 整洁数据概念 如何处理缺失数据 如何数据中查找NaN 如何过滤(删除)缺失数据 Pandas 如何在计算中处理缺失 如何查找,过滤和修复未知 缺失执行插 如何识别和删除重复数据

2.2K20

精通 Pandas:1~5

数据种类 大数据种类来自具有生成数据多种数据源以及所生成数据不同格式。 这给必须处理数据数据接收者带来了技术挑战。...默认行为是为未对齐序列结构生成索引并集。 这是可取,因为信息可以保留而不是丢失。 在本书下一章中,我们将处理 Pandas 中缺失数据 数据是一个二维标签数组。...使用ndarrays/列表字典 在这里,我们列表字典中创建一个数据结构。 键将成为数据结构中列标签,列表中数据将成为列。 注意如何使用np.range(n)生成行标签索引。...如果我们数据具有多重索引,则可以使用groupby按层次结构不同级别分组并计算一些有趣统计数据。...有关 SQL 连接如何工作简单说明,请参考这里。 join函数 DataFrame.join函数用于合并两个具有不同列且没有共同点数据。 本质上,这是两个数据纵向连接。

18.6K10

30 个 Python 函数,加速你数据分析处理速度!

isna 函数确定数据中缺失。...它可以对顺序数据(例如时间序列)非常有用。 8.删除缺失 处理缺失另一个方法是删除它们。以下代码将删除具有任何缺失行。...df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count']) 14.不同群体应用不同聚合函数...23.数据类型转换 默认情况下,分类数据与对象数据类型一起存储。但是,它可能会导致不必要内存使用,尤其是当分类变量具有较低基数。 低基数意味着列与行数相比几乎没有唯一。...例如,地理列具有 3 个唯一和 10000 行。 我们可以通过将其数据类型更改为"类别"来节省内存。

8.9K60

上手Pandas,带你玩转数据(1)-- 实例详解pandas数据结构

3.数据队列。可以把不同队列数据进行基本运算。 4.处理缺失数据。 5.分组运算。比如我们在前面泰坦尼克号中groupby。 6.分级索引。 7.数据合并和加入。 8.数据透视表。...数据 2 一般二维标签,大小可变表格结构,具有潜在非均匀类型列。 面板 3 一般3D标签,大小可变数组。 ---- Series 系列是具有均匀数据一维数组结构。...index:索引必须是唯一和散列,与数据长度相同。...如果 索引 被传递, 索引标签对应数据将被取出。...index:对于行标签,如果没有索引被传递,则要用于结果索引是可选缺省np.arrange(n)。 columns:对于列标签,可选默认语法是 - np.arrange(n)。

6.6K30

Pandas时序数据处理入门

因为我们具体目标是向你展示下面这些: 1、创建一个日期范围 2、处理时间戳数据 3、将字符串数据转换为时间戳 4、数据索引和切片时间序列数据 5、重新采样不同时间段时间序列汇总/汇总统计数据 6...如果想要处理已有的实际数据,可以使用pandas read_csv将文件读入数据开始,但是我们将从处理生成数据开始。...df[df.index.day == 2] } 顶部是这样: 我们还可以通过数据索引直接调用要查看日期: df['2018-01-03'] } 在特定日期之间选择数据如何df['2018-01-...04':'2018-01-06'] } 我们已经填充基本数据为我们提供了每小时频率数据,但是我们可以以不同频率对数据重新采样,并指定我们希望如何计算新采样频率汇总统计。...这是一个很好机会,可以看到当处理丢失数据时,我们如何向前或向后填充数据

4.1K20

精通 Pandas 探索性分析:1~4 全

二、数据选择 在本章中,我们将学习使用 Pandas 进行数据选择高级技术,如何选择数据子集,如何数据集中选择多个行和列,如何 Pandas 数据或一序列数据进行排序,如何过滤 Pandas 数据角色...我们还学习了如何 Pandas 序列对象进行排序。 我们了解了用于 Pandas 数据过滤行和列方法。 我们介绍了几种方法来实现此目的。...我们学习了 Pandas 数据选择各种技术,以及如何选择数据子集。 我们还学习了如何数据集中选择多个角色和列。 我们学习了如何 Pandas 数据或序列进行排序。...在12列中,我们有 3 列缺少。 例如,Age891行总数中只有714;Cabin仅具有204记录;Embarked具有889记录。 我们可以使用不同方法来处理这些缺失。...我们看到了如何处理 Pandas 中缺失。 我们探索了 Pandas 数据索引,以及重命名和删除 Pandas 数据列。 我们学习了如何处理和转换日期和时间数据

27.8K10

Python探索性数据分析,这样才容易掌握

本教程使用示例是历史上 SAT 和 ACT 数据探索性分析,以比较不同州 SAT 和 ACT 考试参与度和表现。在本教程最后,我们将获得关于美国标准化测试潜在问题数据驱动洞察力。...为了比较州与州之间 SAT 和 ACT 数据,我们需要确保每个州在每个数据中都被平等地表示。这是一次创新机会来考虑如何数据之间检索 “State” 列、比较这些并显示结果。...我方法如下图展示: ? 函数 compare_values() 两个不同数据中获取一列,临时存储这些,并显示仅出现在其中一个数据集中任何。...为了合并数据而没有错误,我们需要对齐 “state” 列索引,以便在数据之间保持一致。我们通过每个数据集中 “state” 列进行排序,然后 0 开始重置索引: ?...使用 Pandas pd.to_csv() 方法: ? 设置 index = False 保存没有索引数据。 是时候可视化呈现数据了!

4.9K30

直观地解释和可视化每个复杂DataFrame操作

操作数据可能很快会成为一项复杂任务,因此在Pandas八种技术中均提供了说明,可视化,代码和技巧来记住如何做。 ?...初始DataFrame中将成为索引列,并且这些列显示为唯一,而这两列组合将显示为。这意味着Pivot无法处理重复。 ? 旋转名为df DataFrame代码 如下: ?...Melt Melt可以被认为是“不可透视”,因为它将基于矩阵数据具有二维)转换为基于列表数据(列表示,行表示唯一数据点),而枢轴则相反。...为了访问狗身高,只需两次调用基于索引检索,例如 df.loc ['dog']。loc ['height']。 要记住:外观上看,堆栈采用表二维性并将列堆栈为多级索引。...Unstack 取消堆叠将获取多索引DataFrame并其进行堆叠,将指定级别的索引转换为具有相应新DataFrame列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。

13.3K20

独家 | Pandas 2.0 数据科学家游戏改变者(附链接)

本质上讲,Arrow 是一种标准化内存中列式数据格式,具有适用于多种编程语言(C、C++、R、Python 等)可用库。...其他值得指出方面: 如果没有 pyarrow 后端,每个列/特征都存储为自己唯一数据类型:数字特征存储为 int64 或 float64,而字符串存储为对象; 使用 pyarrow,所有功能都使用...浏览 pyarrow 支持数据类型和 numpy 数据类型之间等效性实际上可能是一个很好练习,以便您学习如何利用它们。 现在也可以在索引中保存更多 numpy 数值类型。...作者代码段 请注意在引入 singleNone 后,点如何自动 int64 更改为 float64。 对于数据流来说,没有什么比错误排版更糟糕了,尤其是在以数据为中心 AI 范式中。...当将数据作为浮点数传递到生成模型中时,我们可能会得到小数输出,例如 2.5——除非你是一个有 2 个孩子、一个新生儿和奇怪幽默感数学家,否则有 2.5 个孩子是不行

32830

Pandas Sort:你 Python 数据排序指南

在多列上 DataFrame 进行排序 按升序按多列排序 更改列排序顺序 按降序按多列排序 按具有不同排序顺序多列排序 根据索引 DataFrame 进行排序 按升序按索引排序 按索引降序排序 探索高级索引排序概念...在本教程中,您将学习如何使用.sort_values()和.sort_index(),这将使您能够有效地 DataFrame 中数据进行排序。...() 在对进行排序时组织缺失数据 使用set to DataFrame进行就地排序inplaceTrue 要学习本教程,您需要对Pandas DataFrames有基本了解,并文件中读取数据有一定了解...EPA 燃油经济性数据集非常棒,因为它包含许多不同类型信息,您可以对其进行排序上,文本到数字数据类型。该数据集总共包含八十三列。 要继续,您需要安装pandas Python 库。...由于您 DataFrame 仍然具有其默认索引,因此按升序其进行排序会将数据放回其原始顺序。

13.8K00

python100G以上数据进行排序,都有什么好方法呢

在本教程中,您将学习如何使用.sort_values()和.sort_index(),这将使您能够有效地 DataFrame 中数据进行排序。...() 在对进行排序时组织缺失数据 使用set to DataFrame进行就地排序inplaceTrue 要学习本教程,您需要对Pandas DataFrames有基本了解,并文件中读取数据有一定了解...Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,行和列都带有标记轴。您可以按行或列以及行或列索引 DataFrame 进行排序。...EPA 燃油经济性数据集非常棒,因为它包含许多不同类型信息,您可以对其进行排序上,文本到数字数据类型。该数据集总共包含八十三列。 要继续,您需要安装pandas Python 库。...由于您 DataFrame 仍然具有其默认索引,因此按升序其进行排序会将数据放回其原始顺序。

10K30

python数据分析——数据选择和运算

关键技术: 二维数组索引语法总结如下: [行进行切片,切片] 切片:可以有start:stop:step 切片:可以有start:stop:step import pandas...数据获取 ①列索引取值 使用单个或序列,可以DataFrame中索引出一个或多个列。...True表示按连结主键(on 对应列名)进行升序排列。 【例】创建两个不同数据,并使用merge()其执行合并操作。 关键技术:merge()函数 首先创建两个DataFrame对象。...: 四、数据运算 pandas具有大量数据计算函数,比如求计数、求和、求平均值、求最大、最小、中位数、众数、方差、标准差等。...位置,为first空数据开头,为last空数据最后,默认为last ignore_index:布尔,是否忽略索引为True标记索引0开始按顺序整数值),为False则忽略索引

11210

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护航

简化将数据转换为 DataFrame 对象过程,而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引数据; 基于标签智能切片、索引以及面向大型数据子设定; 更加直观地合并以及连接数据集...; 更加灵活地重塑、转置(pivot)数据集; 轴分级标记 (可能包含多个标记); 具有鲁棒性 IO 工具,用于平面文件 (CSV 和 delimited)、 Excel 文件、数据库中加在数据,...以及 HDF5 格式中保存 / 加载数据; 时间序列特定功能: 数据范围生成以及频率转换、移动窗口统计、数据移动和滞后等。...Isin () 有助于选择特定列中具有特定(或多个)行。...当一个数据分配给另一个数据时,如果其中一个数据进行更改,另一个数据也将发生更改。为了防止这类问题,可以使用 copy () 函数。

7.5K30

更高效利用Jupyter+pandas进行数据分析,6种常用数据格式效率对比!

在使用Python进行数据分析时,Jupyter Notebook是一个非常强力工具,在数据集不是很大情况下,我们可以使用pandas轻松txt或csv等纯文本格式数据进行读写。...本文将对pandas支持多种格式数据在处理数据不同方面进行比较,包含I/O速度、内存消耗、磁盘占用空间等指标,试图找出如何为我们数据找到一个合适格式办法!...对比 现在开始前文介绍5种数据格式进行比较,为了更好地控制序列化数据结构和属性我们将使用自己生成数据集。 下面是生成测试数据代码,我们随机生成具有数字和分类特征数据集。...将五个随机生成具有百万个观测数据集转储到CSV中,然后读回内存以获取平均指标。并且针对具有相同行数20个随机生成数据集测试了每种二进制格式。...2.特征进行转换 在上一节中,我们没有尝试有效地存储分类特征,而是使用纯字符串,接下来我们使用专用pandas.Categorical类型再次进行比较。 ?

2.8K20

加速数据分析,这12种高效Numpy和Pandas函数为你保驾护

简化将数据转换为 DataFrame 对象过程,而这些数据基本是 Python 和 NumPy 数据结构中不规则、不同索引数据; 基于标签智能切片、索引以及面向大型数据子设定; 更加直观地合并以及连接数据集...; 更加灵活地重塑、转置(pivot)数据集; 轴分级标记 (可能包含多个标记); 具有鲁棒性 IO 工具,用于平面文件 (CSV 和 delimited)、 Excel 文件、数据库中加在数据,...以及 HDF5 格式中保存 / 加载数据; 时间序列特定功能: 数据范围生成以及频率转换、移动窗口统计、数据移动和滞后等。...Isin () 有助于选择特定列中具有特定(或多个)行。...当一个数据分配给另一个数据时,如果其中一个数据进行更改,另一个数据也将发生更改。为了防止这类问题,可以使用 copy () 函数。

6.6K20
领券