Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe

Python数据分析入门日记Day6

——Pandas:Series和Dataframe

从今天起,开始学习Python中另一个经常用到的库——Pandas,Pandas作为数据分析库在日常的数据分析工作中起到重要作用,是一个基于Numpy的、处理数据较为专业的库。因此在使用Pandas这个库之前需要导入Numpy。

1、Series

Pandas中有两种基本的数据结构,分别是Series和DataFrame,即数列和数据框,当然,Python中所涉及到的其它数据类型在Pandas库中也是适用的。只不过这两种数据结构让对数据的分析和操作变得更简单。

(1)创建Series

Series可以说是相当于一个序列,跟之前学到的列表数据类型相似,比如说有一系列元素,每一个元素都对应一个索引值。Series在表面上的不同之处应该在于,它输出的是一个“竖起来的列表”。可以看一下Series序列的创建:

一维数组创建的Series:

很明显,输出结果是一个“竖起来的列表”,其中,第一列为索引值,第二列为列表中的元素。查看数据类型,利用type,输出结果为Series序列形式:

(2)通过字典创建序列

首先,创建一个新字典dict1:

用pd.series函数将其转化为一个序列s2:

如果要索引序列中的第一个元素,可以通过以下两种方法:

利用type()查看数据类型,可以看到返回的数据类型为序列。

2、Dataframe

(1)Dataframe可以用二维数组进行创建,首先,创建一个二维数组arr2。

(2)将新创建的二维数组转化为数据框。并查看数据类型,发现已经转化成了Dataframe的形式。

(3)通过字典创建Dataframe

通过两种不同的字典来创建Dataframe,第一种是字典列表,第二种是嵌套字典。那么,什么是字典列表?什么事嵌套字典呢?

首先,定义一个新字典dict2,键为“a、b、c、d”,值为“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]、[13、14、15、16]”,输出结果:

利用pd.Dataframe()函数,将其转化成数据框。

查看数据类型,此时已经转化成了数据框形式。

利用嵌套字典创建Dataframe,首先创建一个新的嵌套字典dict3。

可以看出,输出的字典dict3中,内层的键是“a、b、c、d”,所对应的值是“[1、2、3、4]、[5、6、7、8]、[9、10、11、12]”,外层的键是“one、two、three”,因此构成了一个双层的嵌套字典。转化数据形式:

从输出结果来看,嵌套字典中外层的键作为列索引,内层的键成为了行索引。通常每一列对应的索引为变量名称,每一行的行名称就是索引。

3、用Dataframe来创建Dataframe

通过已经创建好的数据框df3中的内容来创建一个新的数据框df4,比如:提取df3中的第1列和第3列,创建出新的数据框df4。

查看数据类型:

数据框df4中的数据类型为DataFrame。

注意:若从数据框df3中提取某一列,发现返回的是一个Series序列形式:

换句话说,这种方法是在用DataFrame来创建一个Series。

4、外部导入数据

若想要从外部导入一个Excel文件,需利用pd.read_excel()函数,在括号中输入Excel文件的绝对路径,将“\”改为“/”后跟文件名,然后用.head()函数查看数据集的前五行,具体操作如下:

若想要读取格式为csv的文件,只需将Excel改为csv即可。

看到这里,一定想起在R语言的学习中也有类似的读取文件形式。只要不断学习,知识就会慢慢积累,就能做到触类旁通了。今天关于数据分析库中Serie和Dataframe的一些创建及用法的日记就到这里,另外,感谢大家五天以来的支持与陪伴,我也会再接再厉。最后,如果您有什么好的意见或建议,欢迎指点!

Ovaltine

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190122G059LW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券