Pandas是一个用于数据操作和分析的Python库。它建立在 numpy 库之上,提供数据帧的有效实现。数据帧是一种二维数据结构。在数据帧中,数据以表格形式在行和列中对齐。...它类似于电子表格或SQL表或R中的data.frame。最常用的熊猫对象是数据帧。大多数情况下,数据是从其他数据源(如csv,excel,SQL等)导入到pandas数据帧中的。...在本教程中,我们将学习如何创建一个空数据帧,以及如何在 Pandas 中向其追加行和列。...ignore_index参数设置为 True 以在追加行后重置数据帧的索引。 然后,我们将 2 列 [“薪水”、“城市”] 附加到数据帧。“薪水”列值作为系列传递。序列的索引设置为数据帧的索引。...Pandas 库创建一个空数据帧以及如何向其追加行和列。
二、基于两列删除数据框中的重复值 1 加载数据 # coding: utf-8 import os #导入设置路径的库 import pandas as pd #导入数据处理的库...import numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 df =...如需数据实现本文代码,请到公众号中回复:“基于多列删重”,可免费获取。 得到结果: ?...从上图可以看出用set替换frozense会报不可哈希的错误。 三、把代码推广到多列 解决多列组合删除数据框中重复值的问题,只要把代码中取两列的代码变成多列即可。...numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 name = pd.read_csv
在最基本的层面上,Pandas 对象可以认为是 NumPy 结构化数组的增强版本,其中行和列用标签而不是简单的整数索引来标识。...Pandas 数据帧对象 Pandas 的下一个基本结构是DataFrame。...,其中行和列都具有用于访问数据的通用索引。...我们将在“数据索引和选择”中,探索更灵活的索引DataFrame的方法。 构造DataFrame对象 Pandas DataFrame可以通过多种方式构建。这里我们举几个例子。...作为有序集合的索引 Pandas 对象旨在促进一些操作,例如跨数据集的连接,这取决于集合运算的许多方面。
cat file.csv col1|col2|col3 1|2|A 3|4|B 3、数据帧 pd.DataFrame 用来创建 Pandas 的 DataFrame: data = [[1, 2, "...df.dtypes Pandas 为 DataFrame 中的每一列分配适当的数据类型。...-布尔型过滤 如果该行上的条件评估为 True,则选择该行: df = pd.DataFrame([[1, 2, "A"], [5, 8, "B"],...: int64 19、数据帧过滤-按标签选择 df.loc 在基于标签的选择中,要求的每个标签都必须在 DataFrame 的索引中。...整数也是有效的标签,但它们指的是标签而不是索引位置。
4 pandas基本功能 4.1 重建索引(见上一篇文章) 4.2 数据选择 pandas的数据选择是十分重要的一个操作,它的操作与数组类似,但是pandas的数据选择与数组不同。...数据选择的方法:1、直接选择;2、使用loc选择数据;3、使用iloc选择数据。 直接选择中,frame[[列名,列名]]表示选择列,frame[:3]表示选择行。...DataFrame中选择单列或多列或行(整数表示选择行) df.loc[val] 根据标签选择单行或多行 df.loc[:, val] 根据标签选择单列或多列 df.loc[val1, val2] 根据标签同时选中行和列的一部分...df.iloc[where] 根据整数选择一行或多行 df.iloc[:, where] 根据整数选择一列或多列 df.iloc[where_i, where_i] 根据整数选择行和列 df.at[label_i...Numpy的通用函数(逐元素数组方法)对pandas对象也有效。
许多秘籍将与第 1 章,“Pandas 基础”中的内容类似,这些内容主要涵盖序列操作。 选择数据帧的多个列 选择单个列是通过将所需的列名作为字符串传递给数据帧的索引运算符来完成的。...同时选择数据帧的行和列 直接使用索引运算符是从数据帧中选择一列或多列的正确方法。 但是,它不允许您同时选择行和列。...要同时选择行和列,您将需要将有效的行和列选择都用逗号传递给.iloc或.loc索引器。...该序列传递给索引运算符,该运算符对数据进行子集化。 可以通过将同一列移到索引,并简单地将基本的基于标签的索引选择与.loc一起使用来复制此过程。 通过索引选择比布尔选择快得多。...Pandas 通过数据帧的query方法具有替代的基于字符串的语法,该语法可提供更高的清晰度。 数据帧的query方法是实验性的,不具备布尔索引功能,因此不应用于生产代码。
以下显示Missoula列中大于82度的值: 然后可以将表达式的结果应用于数据帧(和序列)的[]运算符,这仅导致返回求值为True的表达式的行: 该技术在 pandas 术语中称为布尔选择,它将构成基于特定列中的值选择行的基础...创建数据帧期间的行对齐 选择数据帧的特定列和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和列 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...访问数据帧内的数据 数据帧由行和列组成,并具有从特定行和列中选择数据的结构。 这些选择使用与Series相同的运算符,包括[],.loc[]和.iloc[]。...使用布尔选择来选择行 可以使用布尔选择来选择行。 当应用于数据帧时,布尔选择可以利用多列中的数据。...DataFrame对象以及基于各种列中的索引和值选择数据的各种方法。
二、数据选择 在本章中,我们将学习使用 Pandas 进行数据选择的高级技术,如何选择数据子集,如何从数据集中选择多个行和列,如何对 Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧的角色...多列选择 要从一个数据帧中选择多个列,我们需要将这些列作为列表传递给数据帧,如下所示: region_n_state = data[['RegionName', 'State']] region_n_state.head...我们还将学习 Pandas 的filter方法以及如何在实际数据集中使用它,以及基于将根据数据创建的布尔序列保护数据的方法。 我们还将学习如何将条件直接传递给数据帧进行数据过滤。...我们将使用逻辑 AND/OR 条件运算符从真实数据集中选择记录。 我们还将看到如何使用isin()方法来过滤记录。 我们将在真实数据集上演示isin方法用于单列和多列过滤。...接下来,我们了解如何将函数应用于多个列或整个数据帧中的值。 我们可以使用applymap()方法。 它以类似于apply()方法的方式工作,但是在多列或整个数据帧上。
有两种方法可以在Excel文件中选取特定的列: 使用列索引值 使用列标题 使用列索引值 用pandas设置数据框,在方括号中列出要保留的列的索引值或名称(字符串)。...设置数据框和iloc函数,同时选择特定的行与特定的列。如果使用iloc函数来选择列,那么就需要在列索引值前面加上一个冒号和一个逗号,表示为这些特定的列保留所有的行。...用pandas基于列标题选取Customer ID和Purchase Date列的两种方法: 在数据框名称后面的方括号中将列名以字符串方式列出。...如果要基于某个关键字列连接数据框,pandas的merge函数提供类似SQL join的操作。...接下来,计算工作簿级的统计量,将它们转换成一个数据框,然后通过基于工作簿名称的左连接将两个数据框合并在一起,并将结果数据框添加到一个列表中。
我们减了 4 列,因此列数从 14 个减少到 10 列。 2.选择特定列 我们从 csv 文件中读取部分列数据。可以使用 usecols 参数。...df.dropna(axis=0, how='any', inplace=True) 9.根据条件选择行 在某些情况下,我们需要适合某些条件的观测值(即行) france_churn = df[(df.Geography...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.将特定列设置为索引 我们可以将数据帧中的任何列设置为索引....where 函数 它用于根据条件替换行或列中的值。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。
5、序列的聚合统计 Series有很多的聚会函数,可以方便的统计最大值、求和、平均值等 ? 6、DataFrame(数据帧) DataFrame是带有标签的二维数据结构,列的类型可能不同。...9、列选择 在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下整理常用的列选择。 ? 10、行选择 整理多种行选择的方法,总有一种适合你的。 ? ? ?...11、返回指定行列 pandas的DataFrame非常方便的提取数据框内的数据。 ? 12、条件查询 对各类数值型、文本型,单条件和多条件进行行选择 ? ?...13、聚合 可以按行、列进行聚合,也可以用pandas内置的describe对数据进行操作简单而又全面的数据聚合分析。 ? ?...15、分类汇总 可以按照指定的多列进行指定的多个运算进行汇总。 ? 16、透视表 透视表是pandas的一个强大的操作,大量的参数完全能满足你个性化的需求。 ?
目录 Pandas 排序方法入门 准备数据集 熟悉 .sort_values() 熟悉 .sort_index() 在单列上对 DataFrame 进行排序 按升序按列排序 更改排序顺序 选择排序算法...在多列上对 DataFrame 进行排序 按升序按多列排序 更改列排序顺序 按降序按多列排序 按具有不同排序顺序的多列排序 根据索引对 DataFrame 进行排序 按升序按索引排序 按索引降序排序 探索高级索引排序概念...选择排序算法 值得注意的是,pandas 允许您选择不同的排序算法来与.sort_values()和一起使用.sort_index()。...因此,如果您计划执行多种排序,则必须使用稳定的排序算法。 在多列上对 DataFrame 进行排序 在数据分析中,通常希望根据多列的值对数据进行排序。想象一下,您有一个包含人们名字和姓氏的数据集。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。
然而,基于行的数据格式因其无法有效地访问分析查询而闻名。...如图4所示,PolarDB-IMCI中的列索引作为现有行存储的补充存储。在PolarDB-IMCI中,表的列可以选择地参与列索引。...为此,PolarDB-IMCI实现了一个行ID定位器(即两层LSM树)来将主键映射到列索引中行的物理位置。 数据包布局。...对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。...对于各种数据类型,列索引采用不同的压缩算法。数字列采用参考帧、增量编码和位压缩压缩的组合,而字符串列使用字典压缩。
Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如 SQL 表或 Excel 表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型...Pandas 擅长处理的类型如下所示: 容易处理浮点数据和非浮点数据中的 缺失数据(用 NaN 表示); 大小可调整性: 可以从 DataFrame 或者更高维度的对象中插入或者是删除列; 显式数据可自动对齐...Isin () 有助于选择特定列中具有特定(或多个)值的行。...当一个数据帧分配给另一个数据帧时,如果对其中一个数据帧进行更改,另一个数据帧的值也将发生更改。为了防止这类问题,可以使用 copy () 函数。...,基于 dtypes 的列返回数据帧列的一个子集。
Pandas 适用于以下各类数据: 具有异构类型列的表格数据,如SQL表或Excel表; 有序和无序 (不一定是固定频率) 的时间序列数据; 带有行/列标签的任意矩阵数据(同构类型或者是异构类型); 其他任意形式的统计数据集...Pandas 擅长处理的类型如下所示: 容易处理浮点数据和非浮点数据中的 缺失数据(用 NaN 表示); 大小可调整性: 可以从DataFrame或者更高维度的对象中插入或者是删除列; 显式数据可自动对齐...Isin()有助于选择特定列中具有特定(或多个)值的行。...当一个数据帧分配给另一个数据帧时,如果对其中一个数据帧进行更改,另一个数据帧的值也将发生更改。为了防止这类问题,可以使用copy ()函数。...,基于dtypes的列返回数据帧列的一个子集。
在本教程中,您将学习如何使用.sort_values()和.sort_index(),这将使您能够有效地对 DataFrame 中的数据进行排序。...在本教程结束时,您将知道如何: 按一列或多列的值对Pandas DataFrame进行排序 使用ascending参数更改排序顺序 通过index使用对 DataFrame 进行排序.sort_index...选择排序算法 值得注意的是,pandas 允许您选择不同的排序算法来与.sort_values()和一起使用.sort_index()。...因此,如果您计划执行多种排序,则必须使用稳定的排序算法。 在多列上对 DataFrame 进行排序 在数据分析中,通常希望根据多列的值对数据进行排序。想象一下,您有一个包含人们名字和姓氏的数据集。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。
可以通过ndarray处理多类型的数据,但是此时您应该使用 pandas 数据帧,我们将在后面的部分中进行讨论。...8390-98e16a8a1f34.png)] 我还可以通过有效地创建多个数据帧将新列添加到此数据帧。...也就是说,如果要基于索引选择行,而要基于整数位置选择列,请首先使用loc方法选择行,然后使用iloc方法选择列。 执行此操作时,如何选择数据帧的元素没有任何歧义。 如果您只想选择一列怎么办?.../img/7a04ad57-6627-41aa-b93d-89bc0d95ef54.png)] 这样做很简捷; 只需将特定的列视为数据帧的属性,作为对象,使用点表示法有效地选择它即可。...处理 Pandas 数据帧中的丢失数据 在本节中,我们将研究如何处理 Pandas 数据帧中的丢失数据。 我们有几种方法可以检测对序列和数据帧都有效的缺失数据。
因此,考虑到上一节中列出的 Python 的优势作为数据分析的一种选择,使用 Python 的数据分析从业人员应该变得对 Pandas 更为精通才能变得更加有效。 本书旨在帮助用户实现这一目标。...面板的操作功能集相对欠发达,不如序列和数据帧丰富。 总结 总结本章,numpy.ndarray是 Pandas 数据结构所基于的基岩数据结构。...与 Numpy ndarrays相比,pandas 数据结构更易于使用且更加用户友好,因为在数据帧和面板的情况下,它们提供行索引和列索引。数据帧对象是 Pandas 中最流行和使用最广泛的对象。...这很重要,因为有效利用 Pandas 需要对索引和选择数据有充分的了解。...列表索引器用于选择多个列。 一个数据帧的多列切片只能生成另一个数据帧,因为它是 2D 的。 因此,在后一种情况下返回的是一个数据帧。
领取专属 10元无门槛券
手把手带您无忧上云