学习
实践
活动
工具
TVP
写文章

Python数据分析常见库介绍之Pandas

Pandas是Python的一个数据分析包,它名称来源于面板数据(Panel Data)和Python数据分析(Data Analysis),可以说它是Python下最强大的数据分析与探索工具。Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具,使得在Python处理数据变得非常简单和快速。和Scipy一样,Pandas也是构建在Numpy之上。因此,Pandas在安装好Numpy后就可以安装。注意:默认的Pandas还不能读写Excel文件,需要安装xlrd(读)库和xlwt(写)库才能支持Excel的读写。

数据结构

Pandas基本的数据结构是Series和DataFrame。Series就是序列,类似于一维数组,而DataFrame则类似于二维数组,它的每一列都是一个Series。

Series

为了定位Series中的元素,Pandas提供了index对象,每个Series都会带有一个对应的index,用来标记不同的元素,index不一定是数字,也可能是字母等。

Dataframe

DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的类型。DataFrame有行索引和列索引,可以看成由Series组成的字典。

DataFrame也可以通过特定的方式创建,同Spark SQL中的DataFrame一样,其概念来自于R语言,因此,对DataFrame的操作类似于SQL语句。

Series和DataFrame都可以执行一些数学计算操作,比如sum(),min()等。

读取数据

我们从csv或者Excel文件中读取到了数据,并将他们存入了dataframe中。我们只需要调用read_csv函数或者read_excel函数并将文件的路径作为函数参数即可。header关键字告诉Pandas这些数据是否有列名。如果没有列名,你可以将其置为None。Pandas非常智能,所以你可以省略这一关键字。

缺失值处理

Pandas用numpy.nan表示缺失值,不参与计算。

判断何处缺失:

去掉缺失行:

填充缺失行:

Pandas的功能十分强大,要想详细介绍它的工具,写一本书都能难以描述完。鉴于在之后的文章推送中会频繁使用Pandas,因此,这里就不进行详细的介绍,如果你有什么疑惑,建议参考《利用Python进行数据分析》一书。

除了进行数据处理之外,Pandas也可以进行数据可视化,比如:

折线图:

但其实,在Python里面,有更适合进行绘图的库,那就是Matplotlib,在下一次的推送中,我们将进行较为详细的介绍。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180625G208G300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券