pandas是本系列后续内容所需要的第三方库,它是基于之前介绍的NumPy构建的,使得Python可以更加简单、方便地完成一系列数据分析工作。
首先,使用下面的pandas导入约定:
pd是pandas约定俗成的缩写,Series和DataFrame是pandas中两个最重要的数据结构。我们将简单介绍二者的用法,作为pandas的入门。
1.Series
Series是一种类似于一维数组的对象,它由一组数据(NumPy数组)以及相对应的一组数组标签(即索引)构成。
其中,左边是索引部分,右边是数据部分。由于创建Series时没有给定索引参数,于是默认索引为0到N-1。
通过Series的values和index属性,可以获取数据数组和索引数组。
我们可以通过传入索引参数对数据进行标记,然后就可以通过索引获取对应的数据点,这一点类似于字典数据结构。
和NumPy中介绍的很多操作类似,Series同样可以进行布尔值索引和矢量化操作。
2.DataFrame
DataFrame是Pandas数据分析中最常用和最重要的数据结构,它是一个表格型的数据结构,这一点与Excel表格十分类似,每个数据点既有行索引又有列索引。
创建DataFrame最常用的一种方法就是传入一个由等长列表组成的字典。
结果DataFrame会自动加上索引(跟Series类似), 并且全部列都会有序排列。
我们可以通过传入列索引(即属性)的方式获取Series或者DataFrame子列表。
和Series一样,我们也可以传入索引参数或者设定一个属性为索引。
领取专属 10元无门槛券
私享最新 技术干货