首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

通常,您希望对单个组件而不是对整个数据进行操作。 准备 此秘籍数据的索引,数据提取到单独的变量,然后说明如何从同一对象继承和索引。...通常,这些新将从数据集中已有的先前列创建。 Pandas 有几种不同的方法可以向数据添加新。 准备 在此秘籍,我们通过使用赋值影片数据集中创建新,然后使用drop方法删除。...许多秘籍将与第 1 章,“Pandas 基础”的内容类似,这些内容主要涵盖序列操作。 选择数据的多个 选择单个通过所需的列名作为字符串传递给数据的索引运算符完成的。...这些布尔通常存储序列或 NumPy ndarray,通常是通过布尔条件应用于数据的一个或多个创建的。...布尔序列的每个的取值 0 或 1,因此所有适用于数值的序列方法也适用于布尔。 准备 在此秘籍,我们通过条件应用于数据创建布尔序列,然后从中计算汇总统计信息。

37.2K10

精通 Pandas 探索性分析:1~4 全

我们提供了索引为7的行和列为Metro的。 我们还可以通过按索引而不是列名引用实现此选择。 为此,我们将使用iloc方法。 iloc方法,我们需要将行和都作为索引号传递。.../img/2e38ec82-41b2-4465-b694-8373acfba5f6.png)] 过滤 Pandas 数据的行 本节,我们学习从 Pandas 数据过滤行和的方法,并将介绍几种方法实现此目的...我们可以使用isin方法通过一个或多个特定列表来过滤数据集。 在这里,我们仅从Metro中选择New York或San Francisco的那些记录。...我们可以使用它的所有转换为大写。 我们通过序列调用str.upper实现。...重命名 Pandas 数据 本节,我们学习 Pandas 重命名列标签的各种方法。 我们学习如何在读取数据后和读取数据时重命名列,并且还将看到如何重命名所有特定

28K10
您找到你想要的搜索结果了吗?
是的
没有找到

手把手教你用Pandas透视表处理数据(附学习资料)

本文重点解释pandas的函数pivot_table,并教大家如何使用它进行数据分析。...所以,本文重点解释pandas的函数pivot_table,并教大家如何使用它进行数据分析。 如果你对这个概念不熟悉,维基百科上对它做了详细的解释。...pd.pivot_table(df,index=["Manager","Rep"]) 可以看到,透视表比较智能,它已经开始通过“Rep”和“Manager”进行对应分组,实现数据聚合和总结。...一般的经验法则是,一旦你使用多个“grouby”,那么你需要评估此时使用透视表是否是一种好的选择。 高级透视表过滤 一旦你生成了需要的数据,那么数据存在于数据。...所以,你可以使用自定义的标准数据函数来对其进行过滤

3.1K50

用Python执行SQL、Excel常见任务?10个方法全搞定!

轻松地使用它快速查看数据集,而无需加载整个数据集!如果要查看特定数量的行,还可以 head() 方法插入行数。 ? ?...请注意,Python 索引从0开始,而不是1,这样,如果要调用 dataframe 的第一个,则使用0而不是1!你可以通过圆括号内添加你选择的数字更改显示的行数。试试看!... Excel ,你可以右键单击并找到数据转换为不同类型的数据的方法。你可以复制一组由公式呈现的单元格,并将其粘贴,你可以使用格式选项快速切换数字,日期和字符串。...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同的过滤,并确定的百分位数值。 07 选择/过滤数据 任何数据分析师的基本需求是大型数据集分割成有价值的结果。... SQL ,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel ,可以通过拖放数据和执行过滤实现。 你可以使用 Pandas 库不同的方法或查询快速过滤

8.2K20

如何用 Python 执行常见的 Excel 和 SQL 任务

轻松地使用它快速查看数据集,而无需加载整个数据集!如果要查看特定数量的行,还可以 head() 方法插入行数。 ? ?... Excel ,你可以右键单击并找到数据转换为不同类型的数据的方法。你可以复制一组由公式呈现的单元格,并将其粘贴,你可以使用格式选项快速切换数字,日期和字符串。...现在,可以对我们以前不能做的人均 GDP 进行各种计算,包括通过不同的过滤,并确定的百分位数值。 选择/过滤数据 任何数据分析师的基本需求是大型数据集分割成有价值的结果。... SQL ,这是通过混合使用 SELECT 和不同的其他函数实现的,而在 Excel ,可以通过拖放数据和执行过滤实现。 你可以使用 Pandas 库不同的方法或查询快速过滤。...现在我们有一个连接表,我们希望国家和人均 GDP 按其所在地区进行分组。 我们现在可以使用 Pandas 的 group 方法排列按区域分组的数据。 ? ?

10.7K60

利用Pandas数据过滤减少运算时间

1、问题背景有一个包含37456153行和3Pandas数据,其中包括Timestamp、Span和Elevation。...创建了一个名为mesh的numpy数组,它保存了最终想要得到的等间隔Span数据。最后,决定对数据进行迭代,以获取给定的时间戳(代码17300),测试它的运行速度。...代码for循环计算了每个增量处+/-0.5delta范围内的平均Elevation的问题是: 过滤数据并计算单个迭代的平均Elevation需要603毫秒。...Pandas数据过滤的运行速度。...这些技巧可以帮助大家根据特定条件快速地筛选出需要的数据,从而减少运算时间。根据大家的具体需求和数据集的特点,选择适合的方法进行数据过滤

7410

精通 Pandas:1~5

本章通过使用 IPython(一个基于浏览器的界面,使用户可以交互地向 Python 解释器键入命令)的众多示例介绍这些资料。...例如,如果我们希望通过默认替换为缺失消除缺失,则此掩码功能可能非常有用。 在这里,缺失''被替换为'USA'作为默认国家/地区。...默认行为是未对齐的序列结构生成索引的并集。 这是可取的,因为信息可以保留而不是丢失。 本书的下一章,我们处理 Pandas 缺失的数据 数据是一个二维标签数组。...通过指定为列表指定多个用作键。...使用melt函数 melt函数使我们能够通过数据的某些指定为 ID 转换它。 这样可以确保进行任何重要的转换后,它们始终保持

18.7K10

Pandas 秘籍:6~11

不幸的是,至少在这种情况下,Pandas 按字母顺序我们排序了几个月。 我们可以通过Month的数据类型更改为分类变量解决此问题。 分类变量的所有映射一个整数。...多个变量存储时进行整理 同一单元格存储两个或多个时进行整理 列名和存储变量时进行整理 多个观测单位存储同一表时进行整理 介绍 前几章中使用的所有数据集都没有做太多或做任何工作更改其结构...append方法最不灵活,仅允许新行附加到数据。concat方法非常通用,可以在任一轴上组合任意数量的数据或序列。join方法通过一个数据其他数据的索引对齐提供快速查找。...join: 数据方法 水平组合两个或多个 Pandas 对象 调用的数据或索引与其他对象的索引(而不是)对齐 通过执行笛卡尔积来处理连接/索引上的重复 默认为左连接,带有内,外和右选项...默认情况下,merge尝试对齐每个数据具有相同名称的。 但是,您可以通过布尔参数left_index和right_index设置True选择使其与索引对齐。

33.8K10

30 个小例子帮你快速掌握Pandas

通过isna与sum函数一起使用,我们可以看到每缺失的数量。 df.isna().sum() ? 6.使用loc和iloc添加缺失 正在做这个例子来练习loc和iloc。...考虑上一步(df_new)的DataFrame。我们希望小于6的客户的Balance设置0。...低基数意味着与行数相比,一具有很少的唯一。例如,Geography具有3个唯一和10000行。 我们可以通过将其数据类型更改为category节省内存。...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单的。 发现使用Pandas创建基本图比使用其他数据可视化库更容易。 让我们创建Balance的直方图。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果(行)。已经虚构名称添加到df_new DataFrame。 ? 让我们选择客户名称以Mi开头的行。

10.6K10

Pandas之read_csv()读取文件跳过报错行的解决

原因:header只有两个字段名,但数据的第407行却出现了3个字段(可能是该行数据包含了逗号,或者确实有三个部分),导致pandas不知道该如何处理。...解决办法:把第407行多出的字段删除,或者通过read_csv方法设置error_bad_lines=False忽略这种错误: 改为 pandas.read_csv(filePath,error_bad_lines...=’null’]#取得id字段不为null的行 df=df[‘id’]#赋值后dfSeries,表示dfid,而不再是一个DataFrame,于是丢掉了id的头,此时若再使用df[‘id’]...取,与取的区别: df=df[‘id’]#取id赋值后dfSeries类型,可用print(type(df))查看其类型 df=df[[‘id’]]#只取df的id列作为一个新的...=’null’]#过滤掉id字段取值’null’的行 注意,此处的’null’是一个字符串,若df某行id字段的不是字符串型,或者空,报TypeError:invalid type comparison

5.8K20

Python数据分析-pandas库入门

导入 pandas 模块,和常用的子模块 Series 和 DataFrame import pands as pd from pandas import Series,DataFrame 通过传递列表创建...代码示例: import pandas as pd obj = pd.Series([1,4,7,8,9]) obj Series 的字符串表现形式:索引左边,右边。...使用 NumPy 函数或类似 NumPy 的运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引的链接,代码示例: obj2*2 np.exp(obj2) 还可以 Series...,可以 DataFrame 的获取一个 Series,代码示例: frame2['state'] frame2.state 可以通过赋值的方式进行修改,赋值方式类似 Series。...例如,我们可以给那个空的 “debt” 赋上一个标量值或一组(数组或列表形式),代码示例: frame2.debt = np.arange(6.) frame2 注意:列表或数组赋值给某个时,

3.7K20

30 个 Python 函数,加速你的数据分析处理速度!

通过 isna 与 sum 函数一起使用,我们可以看到每缺失的数量。...df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True) 17.特定设置索引 我们可以数据的任何设置索引...例如,地理具有 3 个唯一和 10000 行。 我们可以通过将其数据类型更改为"类别"节省内存。...发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。...30.设置数据样式 我们可以通过使用返回 Style 对象的 Style 属性实现此目的,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小或最大

8.9K60

Pandas 学习手册中文第二版:1~5

以下显示Missoula中大于82度的: 然后可以表达式的结果应用于数据(和序列)的[]运算符,这仅导致返回求值True的表达式的行: 该技术 pandas 术语称为布尔选择,它将构成基于特定选择行的基础...创建数据期间的行对齐 选择数据特定和行 切片应用于数据 通过位置和标签选择数据的行和 标量值查找 应用于数据的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章的示例...由于创建时未指定索引,因此 Pandas 创建了一个基于RangeIndex的标签,标签的开头 0。 数据第二,由1至5组成。 数据列上方的0是该的名称。...我们通过首先学习选择,然后选择行,单个语句中选择行和的组合以及使用布尔选择检查这些内容。 此外,pandas 提供了一种构造,用于我们将要研究的特定行和列上选择单个标量值。...该技术很重要,并且存在,因为它是访问这些的一种非常高性能的方法。 选择数据 使用[]运算符选择DataFrame特定数据。 这与Series不同,Series,[]指定了行。

8.1K10

10招!看骨灰级Pythoner如何玩转Python

(或者,你可以linux中使用 head 命令检查任何文本文件的前5行,例如:head -c 5 data.txt) 然后,你可以使用df.columns.tolist()提取列表的所有,然后添加...缺失的数量 构建模型时,你可能希望排除具有很多缺失或全是缺失的行。你可以使用.isnull()和.sum()计算指定缺失的数量。...选择具有特定ID的行 SQL,我们可以使用SELECT * FROM ... WHERE ID( A001 , C022 ,...)获取具有特定ID的记录。...Percentile groups 你有一个数字,并希望将该分类组,例如的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果同时包含缺失和整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format = %。0f 所有浮点数舍入整数。

2.3K30

涨姿势!看骨灰级程序员如何玩转Python

(或者,你可以linux中使用'head'命令检查任何文本文件的前5行,例如:head -c 5 data.txt) 然后,你可以使用df.columns.tolist()提取列表的所有,然后添加...缺失的数量 构建模型时,你可能希望排除具有很多缺失或全是缺失的行。你可以使用.isnull()和.sum()计算指定缺失的数量。 1....选择具有特定ID的行 SQL,我们可以使用SELECT * FROM ... WHERE ID('A001','C022',...)获取具有特定ID的记录。...Percentile groups 你有一个数字,并希望将该分类组,例如的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果同时包含缺失和整数,则数据类型仍将是float而不是int。导出表时,可以添加float_format ='%。0f'所有浮点数舍入整数。

2.3K20

Python探索性数据分析,这样才容易掌握

使用 Pandas 库,你可以数据文件加载到容器对象(称为数据, dataframe)。...我们这份数据的第一个问题是 ACT 2017 和 ACT 2018 数据集的维度不一致。让我们使用( .head() )更好地查看数据通过 Pandas 库展示了每一的前五行,前五个标签。...将以 2018 年 ACT 数据例: ? 预览了其他数据的前五行之后,我们推断可能存在一个问题,即各个州的数据集是如何存入的。...首先,让我们使用 .value_counts() 方法检查 ACT 2018 数据 “State” ,该方法按降序显示数据每个特定出现的次数: ?...的方法如下图展示: ? 函数 compare_values() 从两个不同的数据获取一,临时存储这些,并显示仅出现在其中一个数据集中的任何

4.9K30

NumPy 和 Pandas 数据分析实用指南:1~6 全

探索序列和数据对象 我们开始研究 Pandas 序列和数据对象。 本节,我们通过研究 Pandas 序列和数据的创建方式开始熟悉它们。 我们将从序列开始,因为它们是数据的构建块。...dict的可以对应于数据;例如, 可以将其视为告诉如何填充每一的缺失信息。 如果使用序列填充序列的缺失信息,那么过去的序列告诉您如何用缺失的数据填充序列特定条目。...类似地,当使用数据填充数据的丢失信息时,也是如此。 如果使用序列填充数据的缺失信息,则序列索引应对应于数据,并且它提供用于填充该数据特定。...我们可以使用sort_index方法重新排列数据的行,以使行索引按顺序排列。 我们还可以通过sort_index的访问参数设置1进行排序。...本节,我们讨论特定实例之外使用 Python 进行可视化的程度,即使可视化是从初始探索到呈现结果的数据分析的关键部分。 建议寻找其他资源以了解有关可视化的更多信息。

5.3K30
领券