首页
学习
活动
专区
圈层
工具
发布

Pandas 2.2 中文官方教程和指南(一)

series 数据的可变性和复制 所有 pandas 数据结构都是值可变的(它们包含的值可以被改变),但不总是大小可变的。...Series 的长度不能改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象并保持输入数据不变。通常情况下,我们喜欢偏向不可变性。...series 可变性和数据的复制 所有的 pandas 数据结构都是值可变的(它们包含的值可以被改变),但并非总是大小可变的。...Series 的长度不能被改变,但是,例如,可以在 DataFrame 中插入列。然而,绝大多数方法会产生新对象,并保持输入数据不变。一般来说,我们喜欢偏向不可变性,在合适的情况下。...记住 通过read_*函数支持从许多不同文件格式或数据源将数据导入 pandas。 通过不同的to_*方法提供了将数据导出到 pandas 的功能。

3.9K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas中的对象

    是广义的Numpy数组DataFrame是特殊的字典创建DataFrame对象Pandas的Index对象将Index看作不可变数组将Index看作有序集合 安装并使用Pandas import numpy...Pandas对象简介 如果从底层视角观察Pandas,可以把它们看成增强版的Numpy结构化数组,行列都不再是简单的整数索引,还可以带上标签。...先来看看Pandas三个基本的数据结构: Series DataFrame Index Pandas的Series对象 Pandas的Series对象是一个带索引数据构成的一维数组,可以用一个数组创建Series...字典是将任意键映射到一组任意值的结构,而Series对象是将类型化键映射到一组类型化值的结构。...Pandas 的 Index 对象是一个很有趣的数据结构,可以将它看作是一个不可变数组或有序集合 # 使用一个简单的列表创建Index对象 ind = pd.Index([2, 3, 5, 7, 11]

    3.7K30

    【愚公系列】2023年07月 Pandas数据分析之DataFrames

    3 4 dtype: int64 Index 对象是 Pandas 中另一个重要的数据结构,它可以用来表示 Series 或 DataFrame 中的行或列的标签。...Index 对象是不可变的,因此可以用作字典中的键。Index 对象可以通过传递一个列表或数组创建。...(=需要更少的括号),但它们只能按行过滤,并且不能通过它们修改Dataframe。...NumPy向量保持一致(它们不按标签对齐,并被认为是一个简单的二维NumPy数组的DataFrame): 因此,在不太幸运(也是最常见的!)...默认情况下,Pandas会对所有远端可求和的东西进行求和,因此你需要缩小选择范围,如下所示: 注意,当对单个列求和时,你将得到一个Series而不是DataFrame。

    1.1K10

    【愚公系列】2023年07月 Pandas数据分析(Series 和 Index)

    前言 Pandas 是一种用于数据分析的 Python 库,它提供了两个基本的数据结构——Series 和 DataFrame。...3 4 dtype: int64 Index 对象是 Pandas 中另一个重要的数据结构,它可以用来表示 Series 或 DataFrame 中的行或列的标签。...Index 对象是不可变的,因此可以用作字典中的键。Index 对象可以通过传递一个列表或数组创建。...在内部,Series将值存储在普通的NumPy vector中。因此,它继承了它的优点(紧凑的内存布局、快速的随机访问)和缺点(类型同质、缓慢的删除和插入)。...9.分组 在数据处理中,一个常见的操作是计算一些统计量,不是针对整个数据集,而是针对其中的某些组。第一步是通过提供将一系列(或一个dataframe)分解为组的标准来定义一个“智能对象”。

    43110

    【愚公系列】2023年07月 Pandas数据分析之MultiIndex

    前言 Pandas中的多级索引(MultiIndex)是指在一个DataFrame或Series中,使用多个索引级别来组织数据。多级索引可用于存储高维数据,如时间序列数据或具有多个分类变量的数据。...让我们看看文档中对命名约定的说明: “该函数的命名类似于重新组织的书籍集合,从水平位置并排(dataframe的列)到垂直堆叠(在dataframe的索引中)。”...=False,可选地原地执行操作(不能用于单个索引,因为它是不可变的)。...11.读写多索引dataframe到磁盘 Pandas可以以完全自动化的方式将具有多重索引的DataFrame写入CSV文件:df.to_csv('df.csv ')。...但不幸的是,你不能用df.assign将结果赋值给原始的dataframe。 一种方法是将列索引的所有不相关级别堆叠到行索引中,执行必要的计算,然后将它们解堆叠回去(使用pdi)。

    51710

    数据分析利器--Pandas

    (参考:Series与DataFrame) DataFrame:一个Datarame表示一个表格,类似电子表格的数据结构,包含一个经过排序的列表集,它们每一个都可以有不同的类型值(数字,字符串,布尔等等...在底层,数据是作为一个或多个二维数组存储的,而不是列表,字典,或其它一维的数组集合。因为DataFrame在内部把数据存储为一个二维数组的格式,因此你可以采用分层索引以表格格式来表示高维的数据。...名称 维度 说明 Series 1维 带有标签的同构类型数组 DataFrame 2维 表格结构,带有标签,大小可变,且可以包含异构的数据列 DataFrame可以看做是Series的容器,即:一个DataFrame...DataFrame.drop_duplicates() 它用于返回一个移除了重复行的DataFrame DataFrame.fillna() 将无效值替换成为有效值 5、Pandas常用知识点 5.1...5.2 Dataframe写入到数据库中 df.to_sql('tableName', con=dbcon, flavor='mysql') 第一个参数是要写入表的名字,第二参数是sqlarchmy的数据库链接对象

    4.4K30

    Apache Hudi在Hopsworks机器学习的应用

    HSFS 将两个存储系统抽象出来,提供透明的 Dataframe API(Spark、Spark Structured Streaming、Pandas)用于在线和离线存储的写入和读取。...•引擎:在线特征存储带有可扩展的无状态服务,可确保数据尽快写入在线特征存储,而不会从数据流(Spark 结构化流)或静态 Spark 或 Pandas DataFrame中进行写入放大,即不必在摄取特征之前先将特征物化到存储中...因此Hopsworks 特征存储库有一个 Dataframe API,这意味着特征工程的结果应该是将写入到特征存储的常规 Spark、Spark Structured Streaming 或 Pandas...如果您有现有的 ETL 或 ELT 管道,它们生成包含特征的数据帧,您可以通过简单地获取对其特征组对象的引用并使用您的数据帧作为参数调用 .insert() 来将该数据帧写入特征存储 ....然而Hopsworks 引入了训练数据集抽象来表示用于训练模型的特征集和特征值。也就是说,不可变的训练数据集和模型之间存在一对一的映射关系,但可变特征组与不可变的训练数据集之间是一对多的关系。

    1.1K20

    Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

    HSFS 将两个存储系统抽象出来,提供透明的 Dataframe API(Spark、Spark Structured Streaming、Pandas)用于在线和离线存储的写入和读取。...•引擎:在线特征存储带有可扩展的无状态服务,可确保数据尽快写入在线特征存储,而不会从数据流(Spark 结构化流)或静态 Spark 或 Pandas DataFrame中进行写入放大,即不必在摄取特征之前先将特征物化到存储中...因此Hopsworks 特征存储库有一个 Dataframe API,这意味着特征工程的结果应该是将写入到特征存储的常规 Spark、Spark Structured Streaming 或 Pandas...如果您有现有的 ETL 或 ELT 管道,它们生成包含特征的数据帧,您可以通过简单地获取对其特征组对象的引用并使用您的数据帧作为参数调用 .insert() 来将该数据帧写入特征存储 ....然而Hopsworks 引入了训练数据集抽象来表示用于训练模型的特征集和特征值。也就是说,不可变的训练数据集和模型之间存在一对一的映射关系,但可变特征组与不可变的训练数据集之间是一对多的关系。

    1.5K10

    数据科学 IPython 笔记本 7.4 Pandas 对象介绍

    因此,在我们继续之前,让我们介绍这三个基本的 Pandas 数据结构:Series,DataFrame和Index。...正如你可能将二维数组视为对齐的一维列的有序序列一样,你可以将DataFrame视为对齐的Series对象的序列。在这里,“对齐”是指它们共享相同的索引。...作为特化字典的DataFrame 同样,我们也可以将DataFrame视为字典的特化。 字典将键映射到值,DataFrame将列名称映射到列数据的Series。...对于DataFrame,data ['col0']将返回第一列。因此,最好将DataFrame视为扩展的字典而不是扩展的数组,尽管两种看待这个情况的方式都是实用的。...NumPy数组之间的一个区别是,索引是不可变的 - 也就是说,它们不能通过常规方式修改: ind[1] = 0 ''' ----------------------------------------

    3K10

    Python Pandas PK esProc SPL,谁才是数据预处理王者?

    用apply循环各组数据时,需要定义一个处理组内数据的函数,这个函数超出了一句,因此不能用Lambda表达式来简化定义过程(连Java等编译型语言都没有这种限制)。...相反,DataFrame适合表达二维数据,但同一列的数据类型不可变,不是真正的泛型,无法表达一般的多层Json。...使用Pandas时,经常用到Python的原生类库和第三类库numpy里的数据对象,包括Set(数学集合)、List(可重复集合)、Tuple(不可变的可重复集合)、Dict(键值对集合)、Array(...Pandas参数的表达能力就差多了,merge函数里表示DataFrame的选项只有left和right,因此只能进行两表关联。...不难看出,SPL语言的整体性较好,因此能够从底层提供游标机制。

    3.9K20

    Pandas图鉴(四):MultiIndex

    Polars[2]是Pandas最近的转世(用Rust编写,因此速度更快,它不再使用NumPy的引擎,但语法却非常相似,所以学习 Pandas 后对学习 Polars 帮助非常大。...类型转换 Pandas (以及Python本身)对数字和字符串有区别,所以在数据类型没有被自动检测到的情况下,可以将数字转换为字符串: pdi.set_level(df.columns, 0, pdi.get_level...我们看看文档中对命名规则的描述: "这个函数是通过类比来命名的,即一个集合被重新组织,从水平位置上的并排(DataFrame的列)到垂直方向上的堆叠(DataFrame的索引中)。"...将多索引DataFrame读入和写入磁盘 Pandas可以以完全自动化的方式将一个带有MultiIndex的DataFrame写入CSV文件:df.to_csv('df.csv')。...但并不能用df.assign将结果分配到原始DataFrame中。

    1.8K20

    Python数据科学手册(三)【Pandas的对象介绍】

    Pandas提供了以下几种基本的数据类型: Series DataFrame Index Pandas Series对象 Pandas Series 是一个一维的数组对象,它可以从列表或者数组中创建。...3.构建 DataFrame Pandas DataFrame支持各种方式的构建: 从单个Series对象中构建 DataFrame是很多个Series对象的集合,单列的DataFrame可以从单个的...image.png Pandas Index对象 Index对象可以看做不可变数组或者排序的集合。...ind = pd.Index([2, 3, 5, 7, 11]) 1.将Index看做不可变数组 ind[1] # 3 Index对象跟Numpy数组很像,主要区别就是Index对象是不可修改的。...2.将Index看作排序的集合 Pandas对象被设计用来处理多个数据集,因此依赖很多集合操作。由于Index可以看做集合,因此它支持交、并、差等集合操作。

    1.2K30

    别说你会用Pandas

    chunk 写入不同的文件,或者对 chunk 进行某种计算并保存结果 但使用分块读取时也要注意,不要在循环内部进行大量计算或内存密集型的操作,否则可能会消耗过多的内存或降低性能。...PySpark提供了类似Pandas DataFrame的数据格式,你可以使用toPandas() 的方法,将 PySpark DataFrame 转换为 pandas DataFrame,但需要注意的是...,这可能会将所有数据加载到单个节点的内存中,因此对于非常大的数据集可能不可行)。...相反,你也可以使用 createDataFrame() 方法从 pandas DataFrame 创建一个 PySpark DataFrame。...=True) # 显示数据集的前几行 df.show(5) # 对数据进行一些转换 # 例如,我们可以选择某些列,并对它们应用一些函数 # 假设我们有一个名为 'salary

    93710

    利用Python进行数据分析笔记

    因此,对未排序的列表使用bisect不会产生错误,但结果不一定正确。...字典 字典可能是Python最为重要的数据结构。它更为常见的名字是哈希映射或关联数组。它是键值对的大小可变集合,键和值都是Python对象。...后面的频率值是每个列中这些值的相应计数。 5.4 总结 在下一章,我们将讨论用pandas读取(或加载)和写入数据集的工具。...6.1 读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结,其中read_csv和read_table可能会是你今后用得最多的。...将数据从SQL加载到DataFrame的过程很简单,此外pandas还有一些能够简化该过程的函数。

    5.6K10

    上手Pandas,带你玩转数据(1)-- 实例详解pandas数据结构

    文章目录 关于pandas pandas创始人对pandas的讲解 pandas的热度 pandas对于数据分析 pandas数据结构简介 Series DataFrame pandas数据结构方法详解...基本方法 DataFrame基本方法 好物推荐 关于pandas 昨天写一个小项目的时候,想用pandas把数据写入到Excel中去,结果发现我原先写的那套pandas教程是真的垃圾啊。...pandas创始人对pandas的讲解 在pandas的官网(Python Data Analysis Library)上,我们可以看到有一段pandas创始人Wes McKinney对pandas的讲解...数据帧 2 一般的二维标签,大小可变的表格结构,具有潜在的非均匀类型列。 面板 3 一般3D标签,大小可变的数组。 ---- Series 系列是具有均匀数据的一维数组结构。...默认np.arange(n)如果没有索引被传递。 dtype:dtype用于数据类型。如果没有,将推断数据类型 copy:复制数据,默认为false。

    7.5K30

    是时候和pd.read_csv(), pd.to_csv()说再见了

    大数据文摘授权转载自数据派THU 作者:Avi Chawla 翻译:欧阳锦 校对:和中华 Pandas 对 CSV 的输入输出操作是串行化的,这使得它们非常低效且耗时。...因此,在这篇文章中,我们将探索Dask和DataTable,这两个最受数据科学家欢迎的类 Pandas 库。...我们将根据 Pandas、Dask 和 Datatable 在以下参数上的表现对它们进行排名: 1....将 PANDAS DATAFRAME 存储到 CSV 所需的时间 目标是从给定的 Pandas DataFrame 生成 CSV 文件。对于 Pandas,我们已经知道df.to_csv()方法。...出于实验目的,我在 Python 中生成了一个随机数据集,其中包含可变行和三十列——包括字符串、浮点数和整数数据类型。 2.

    1.4K20

    Pandas 2.2 中文官方教程和指南(十·二)

    id_n 应该清楚,对major_axis进行删除操作会相当快,因为一个块被移除,然后后续数据被移动。另一方面,对minor_axis进行删除操作将非常昂贵。...,写入大型 DataFrame 可能会因超出数据包大小限制而导致错误。...唯一的例外是在使用 ADBC PostgreSQL 驱动程序时,此时 timedelta 将被写入数据库作为INTERVAL。...因此,将数据库表重新读取时不会生成分类数据。 日期时间数据类型 使用 ADBC 或 SQLAlchemy,to_sql() 能够写入时区无关或时区感知的日期时间数据。...返回列的子集。如果类似列表,所有元素必须是位置的(即整数索引到文档列)或与用户在 `names` 中提供的列名对应的字符串,或从文档标题行中推断出的列名。

    2K00
    领券