首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 2.2 中文官方教程和指南(一)

您可以在此文档中找到有关 pandas 的简单安装说明。 从源代码安装 请参阅贡献指南以获取有关从 git 源代码树构建的完整说明。此外,如果您希望创建 pandas 开发环境,请参阅创建开发环境。...series 可变性和数据的复制 所有的 pandas 数据结构都是可变的(它们包含的可以被改变),并非总是大小可变的。...对 DataFrame 或 Series 执行某些操作 我想知道乘客的最大年龄 我们可以通过选择Age并应用max()DataFrame执行此操作: In [7]: df["Age"].max()...=,<,<=,…)实际是一个具有与原始DataFrame相同行数的布尔(True 或 False)的 pandas Series。...=, <, <=,…)实际是一个布尔pandas Series(True 或 False)与原始 DataFrame 行数相同。

31110
您找到你想要的搜索结果了吗?
是的
没有找到

快速介绍Python数据分析库pandas的基础知识和代码示例

为了能够快速查找和使用功能,使我们进行机器学习模型时能够达到一定流程化。我创建了这个pandas函数的备忘单。这不是一个全面的列表,包含了我构建机器学习模型中最常用的函数。让我们开始吧!...info()函数用于按获取标题、的数量和数据类型等一般信息。一个类似但不太有用的函数是df.dtypes只给出列数据类型。...NaN(非数字的首字母缩写)是一个特殊的浮点,所有使用标准IEEE浮点表示的系统都可以识别它 pandasNaN看作是可互换的,用于指示缺失或空。...我们可以创建一组类别,并对类别应用一个函数。这是一个简单的概念,但却是我们经常使用的极有价值的技术。Groupby的概念很重要,因为它能够有效地聚合数据,无论是性能上还是代码数量都非常出色。...当我发现更多有用的Pandas函数时,我将尝试不断地对其进行更新。

8.1K20

直观地解释和可视化每个复杂的DataFrame操作

大多数数据科学家可能会赞扬Pandas进行数据准备的能力,许多人可能无法利用所有这些能力。...Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有投影为新表的元素,包括索引,。初始DataFrame中将成为索引的,并且这些显示为唯一,而这两的组合将显示为。...诸如字符串或数字之类的非列表项不受影响,空列表是NaN(您可以使用.dropna()清除它们 )。 ? DataFrame df中Explode“ A ” 非常简单: ?...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应的新DataFrame表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...请注意,concat是pandas函数,而不是DataFrame之一。因此,它接受要连接的DataFrame列表。 如果一个DataFrame的另一未包含,默认情况下将包含该,缺失列为NaN

13.3K20

Pandas 2.2 中文官方教程和指南(十·二)

其思想是有一个表(称之为选择器表),你在这个表中索引大部分/全部,并执行你的查询。其他表是数据表,其索引与选择器表的索引匹配。然后你可以选择器表执行非常快速的查询,同时获取大量数据。...一旦创建了table,DataFrame)就是固定的;只能追加完全相同的 请注意时区(例如,pytz.timezone('US/Eastern'))不同时区版本之间不一定相等。...+ `pyarrow` 引擎始终将索引写入输出, `fastparquet` 写入非默认索引。这个额外的可能会给那些不希望看到它的非 pandas 消费者带来问题。...如果尝试解析日期字符串列,pandas尝试从第一个非 NaN 元素猜测格式,然后使用该格式解析的其余部分。...一般来说,pyarrow 引擎较大的工作负载速度最快,大多数其他工作负载与 C 引擎的速度相当。Python 引擎大多数工作负载比 pyarrow 和 C 引擎慢。

15800

合并PandasDataFrame方法汇总

Pandas提供好几种方法和函数来实现合并DataFrame的操作,一般的操作结果是创建一个新的DataFrame,而对原始数据没有任何影响。...在上面的示例中,还设置了参数 indicator为True,以便PandasDataFrame的末尾添加一个额外的_merge 。...如果设置为 True ,它将忽略原始并按顺序重新创建索引 keys:用于设置多级索引,可以将它看作附加在DataFrame左外侧的索引的另一个层级的索引,它可以帮助我们不唯一时区分索引 用与 df2...相同的类型创建一个新的DataFrame这个DataFrame包含id006和id007的image_url: df2_addition = pd.DataFrame({'user_id': [...有兴趣的话,可以通过更改join参数的尝试不同形式的组合,从而了解其差异!

5.7K10

Python 金融编程第二版(二)

pandas相当容错,以捕获错误并在相应的数学运算失败时放置NaN。不仅如此,正如之前简要展示的那样,您还可以许多情况下像处理完整数据集一样处理这些不完整数据集。...plot 方法的参数 参数 格式 描述 x 标签/位置,默认为 None 为 x 刻度时使用 y 标签/位置,默认为 None 为 y 刻度时使用 subplots 布尔,默认为 False...复杂选择 数据选择通常通过制定条件来完成,并可能逻辑地组合多个这样的条件。考虑以下数据集。...② 选择所有这样的,并在所有其他位置放置 NaN。 连接、合并和拼接 本节介绍了形式DataFrame 对象的两个简单数据集组合的不同方法。...② 右连接与颠倒 DataFrame 对象的顺序相同。 ③ 内连接保留那些两个索引中都找到的索引。 ④ 外连接保留来自两个索引的所有索引。 也可以基于空的 DataFrame 对象进行连接。

10310

Python 数据分析(PYDA)第三版(三)

这些函数的可选参数可能属于几个类别: 索引 可以将一个或多个视为返回的 DataFrame,并确定是否从文件、您提供的参数或根本不获取列名。...parse_dates 尝试解析数据为datetime;默认为False。如果为True,将尝试解析所有。否则,可以指定要解析的号或名称的列表。...pandas.read_html函数有许多选项,默认情况下它会搜索并尝试解析包含在标签中的所有表格数据。...虽然 findall 返回字符串中的所有匹配项, search 只返回第一个匹配项。更严格地说,match 字符串开头匹配。...这涉及创建一个 DataFrame,其中每个不同的类别都有一;这些包含给定类别的出现为 1,否则为 0。

19900

Pandas 学习手册中文第二版:6~10

现在让我们尝试使用索引来帮助我们查找。 以下代码设置此DataFrame的索引以匹配keys。...尽管它们本质看似微不足道, Pandas 通过对等式左侧和右侧的进行对齐来增加强大的效果。 因此,索引算术中起着很大的作用,Pandas 用户必须了解索引如何影响结果。...这可能有点违反直觉,但是逐行的基础中应用不同的时,它是非常强大的。...-2e/img/00453.jpeg)] 该DataFrame现在缺少显示以下特征的数据: 一行NaN组成 一NaN组成 由数值和NaN组成的几行和几列 现在,让我们研究各种技术来处理缺失的数据...()实际返回了DataFrame的副本,没有行。

2.3K20

pandas中ix的使用详细讲解

首先,再次介绍这三种方法的概述: locgets rows (or columns) with particularlabelsfrom the index. loc从索引中获取具有特定标签的行(或)...正如我们ix的特点1所说的那样,如果索引只有整数类型,那么ix使用基于标签的索引,而不会回退到基于位置的索引。如果标签不在索引中,则会引发错误。...2 Dataframe中使用ix实现复杂切片 有时候,使用Dataframe进行切片时,我们想混合使用标签和位置来对行和进行切片。那么,应该怎么操作呢?...举例,考虑有下述例子中的Dataframe。我们想得到直到包含标签’c’的行和前4。...NaN NaN NaN pandas的早期版本(0.20.0)之前,ix可以很好地实现这个功能。

1.8K10

Pandas 2.2 中文官方教程和指南(九·一)

5 dtype: object 请注意,在混合类型的 DataFrame 对象,describe() 将限制摘要包括数值或(如果没有)包括分类: In [103]: frame...,因此 DataFrame 的方法`map()` 和类似地 Series 的`map()` 接受任何接受单个并返回单个的 Python 函数。...注意 pandas 1.0 之前,字符串方法适用于object类型的Series。pandas 1.0 添加了StringDtype,专门用于字符串。更多信息请参见文本数据类型。...请参见矢量化字符串方法获取完整描述。 排序 pandas 支持三种排序方式:按索引标签排序、按排序以及按两者的组合排序。...dtypes 大多数情况下,pandas 使用 NumPy 数组和 dtype 来处理 Series 或 DataFrame 的单个

7400

数据导入与预处理-课程总结-04~06章

第4章 pandas数据获取 完整参考: 数据导入与预处理-第4章-pandas数据获取 1.1 数据获取 1.1.1 概述 数据经过采集后通常会被存储到Word、Excel、JSON等文件或数据库中...how:表示删除缺失的方式。 thresh:表示保留至少有N个非NaN的行或。 subset:表示删除指定的缺失。 inplace:表示是否操作原数据。...2.1.5 案例 import pandas as pd import numpy as np # 创建DataFrame na_df = pd.DataFrame({'A':[1, 2, np.NaN...2.3.3 重复处理案例 创建DataFrame对象: # 创建DataFrame对象 import pandas as pd import numpy as np df = pd.DataFrame...Q3表示四分位数,说明全部检测中有四分之一的比它大; Q1表示下四分位数,说明全部检测中有四分之一的比它小; IQR表示四分位数间距,即四分位数Q3与下四分位数Q1之差,其中包含了一半检测

13K10

Python中的DataFrame模块学

初始化DataFrame   创建一个空的DataFrame变量   import pandas as pd   import numpy as np   data = pd.DataFrame()   ...print(np.shape(data)) # (0,0)   通过字典创建一个DataFrame   import pandas as pd   import numpy as np   dict_a...增加一数据,且相同   import pandas as pd   import numpy as np   dict_a = {'name': ['xu', 'wang'], 'gender':...  # how: 'any'表示行或只要含有NaN就去除,'all'表示行或全都含有NaN才去除   # thresh: 整数n,表示每行或中至少有n个元素补位NaN,否则去除   # subset...: ['name', 'gender'] 子集中去除NaN,子集也可以index,但是要配合axis=1   # inplace: 如何为True,则执行操作,然后返回None   print(data

2.4K10

猿创征文|数据导入与预处理-第3章-pandas基础

使用pandas中的Series数据结构时,可通过pandas点Series调用。...1.4.1 Dataframe简介 DataFrame是一个结构类似于二维数组或表格的对象,与Series类对象相比,DataFrame类对象也由索引和数据组成,该对象有两组索引,分别是行索引和索引...,如出现新的NaN # index在这里和之前不同,并不能改变原有index,如果指向新的标签,NaN (非常重要!)...使用[]访问数据 变量[索引] 需要说明的是,若变量的是一个Series类对象,则会根据索引获取该对象中对应的单个数据;若变量的是一个DataFrame类对象,使用“[索引]”访问数据时会将索引视为索引...,进而获取索引对应的一数据。

13.9K20

python数据科学系列:pandas入门详细教程

正因为pandasnumpy基础实现,其核心数据结构与numpy的ndarray十分相似,pandas与numpy的关系不是替代,而是互为补充。...,支持一维和二维数据,数据内部可以是异构数据,要求同数据类型一致即可 numpy的数据结构支持数字索引,而pandas数据结构则同时支持数字索引和标签索引 从功能定位看: numpy虽然也支持字符串等其他数据类型...pandas核心数据结构有两种,即一维的series和二维的dataframe,二者可以分别看做是numpy一维数组和二维数组的基础增加了相应的标签信息。...与此同时,series因为只有一,所以数据类型自然也就只有一种,pandas为了兼容二者,series的数据类型属性既可以用dtype也可以用dtypes获取;而dataframe则只能用dtypes...是numpy的基础实现的,所以numpy的常用数值计算操作pandas中也适用: 通函数ufunc,即可以像操作标量一样对series或dataframe中的所有元素执行同一操作,这与numpy

13.8K20
领券