Python数据分析常见库介绍之Pandas

文章来源：企鹅号 - 经管人学数据分析

Pandas是Python的一个数据分析包，它名称来源于面板数据（Panel Data）和Python数据分析（Data Analysis），可以说它是Python下最强大的数据分析与探索工具。Pandas纳入大量库和标准数据模型，提供高效的操作数据集所需的工具，使得在Python处理数据变得非常简单和快速。和Scipy一样，Pandas也是构建在Numpy之上。因此，Pandas在安装好Numpy后就可以安装。注意：默认的Pandas还不能读写Excel文件，需要安装xlrd（读）库和xlwt（写）库才能支持Excel的读写。

数据结构

Pandas基本的数据结构是Series和DataFrame。Series就是序列，类似于一维数组，而DataFrame则类似于二维数组，它的每一列都是一个Series。

Series

为了定位Series中的元素，Pandas提供了index对象，每个Series都会带有一个对应的index，用来标记不同的元素，index不一定是数字，也可能是字母等。

Dataframe

DataFrame是表格型数据结构，包含一组有序的列，每列可以是不同的类型。DataFrame有行索引和列索引，可以看成由Series组成的字典。

DataFrame也可以通过特定的方式创建，同Spark SQL中的DataFrame一样，其概念来自于R语言，因此，对DataFrame的操作类似于SQL语句。

Series和DataFrame都可以执行一些数学计算操作，比如sum()，min()等。

读取数据

我们从csv或者Excel文件中读取到了数据，并将他们存入了dataframe中。我们只需要调用read_csv函数或者read_excel函数并将文件的路径作为函数参数即可。header关键字告诉Pandas这些数据是否有列名。如果没有列名，你可以将其置为None。Pandas非常智能，所以你可以省略这一关键字。

缺失值处理

Pandas用numpy.nan表示缺失值，不参与计算。

判断何处缺失：

去掉缺失行：

填充缺失行：

Pandas的功能十分强大，要想详细介绍它的工具，写一本书都能难以描述完。鉴于在之后的文章推送中会频繁使用Pandas，因此，这里就不进行详细的介绍，如果你有什么疑惑，建议参考《利用Python进行数据分析》一书。

除了进行数据处理之外，Pandas也可以进行数据可视化，比如：

折线图：

但其实，在Python里面，有更适合进行绘图的库，那就是Matplotlib，在下一次的推送中，我们将进行较为详细的介绍。

发表于: 2018-06-252018-06-25 23:23:55
原文链接：https://kuaibao.qq.com/s/20180625G208G300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Python数据分析常见库介绍之Pandas

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐