Python数据处理（6）-pandas的数据结构

文章来源：企鹅号 - BDC咨询

pandas是本系列后续内容所需要的第三方库，它是基于之前介绍的NumPy构建的，使得Python可以更加简单、方便地完成一系列数据分析工作。

首先，使用下面的pandas导入约定：

pd是pandas约定俗成的缩写，Series和DataFrame是pandas中两个最重要的数据结构。我们将简单介绍二者的用法，作为pandas的入门。

1.Series

Series是一种类似于一维数组的对象，它由一组数据（NumPy数组）以及相对应的一组数组标签（即索引）构成。

其中，左边是索引部分，右边是数据部分。由于创建Series时没有给定索引参数，于是默认索引为0到N-1。

通过Series的values和index属性，可以获取数据数组和索引数组。

我们可以通过传入索引参数对数据进行标记，然后就可以通过索引获取对应的数据点，这一点类似于字典数据结构。

和NumPy中介绍的很多操作类似，Series同样可以进行布尔值索引和矢量化操作。

2.DataFrame

DataFrame是Pandas数据分析中最常用和最重要的数据结构，它是一个表格型的数据结构，这一点与Excel表格十分类似，每个数据点既有行索引又有列索引。

创建DataFrame最常用的一种方法就是传入一个由等长列表组成的字典。

结果DataFrame会自动加上索引（跟Series类似），并且全部列都会有序排列。

我们可以通过传入列索引（即属性）的方式获取Series或者DataFrame子列表。

和Series一样，我们也可以传入索引参数或者设定一个属性为索引。

相关快讯