Python数据处理(6)-pandas的数据结构

pandas是本系列后续内容所需要的第三方库,它是基于之前介绍的NumPy构建的,使得Python可以更加简单、方便地完成一系列数据分析工作。

首先,使用下面的pandas导入约定:

pd是pandas约定俗成的缩写,Series和DataFrame是pandas中两个最重要的数据结构。我们将简单介绍二者的用法,作为pandas的入门。

1.Series

Series是一种类似于一维数组的对象,它由一组数据(NumPy数组)以及相对应的一组数组标签(即索引)构成。

其中,左边是索引部分,右边是数据部分。由于创建Series时没有给定索引参数,于是默认索引为0到N-1。

通过Series的values和index属性,可以获取数据数组和索引数组。

我们可以通过传入索引参数对数据进行标记,然后就可以通过索引获取对应的数据点,这一点类似于字典数据结构。

和NumPy中介绍的很多操作类似,Series同样可以进行布尔值索引和矢量化操作。

2.DataFrame

DataFrame是Pandas数据分析中最常用和最重要的数据结构,它是一个表格型的数据结构,这一点与Excel表格十分类似,每个数据点既有行索引又有列索引。

创建DataFrame最常用的一种方法就是传入一个由等长列表组成的字典。

结果DataFrame会自动加上索引(跟Series类似), 并且全部列都会有序排列。

我们可以通过传入列索引(即属性)的方式获取Series或者DataFrame子列表。

和Series一样,我们也可以传入索引参数或者设定一个属性为索引。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180103G03E9P00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区