最近在写一本和pandas相关的书,在博客上记录一下自己的创作过程
写书的缘由是,前一段时间自己在做人名音译的项目学习性研究,发现网上在pandas这一块中文文档还是是比较欠缺,大多都是对其中部分知识的讲解,缺乏系统性的介绍讲解,这对许多新人甚至是做过类似工作的人都或多或少造成过困扰。尝试着写一写关于这方面的书籍、教程以供大家相互学习交流,同时也希望通过这个来赚取自己的研究生入学费用。
pandas是大家在Python学习中要掌握的一个必不可少的第三方库,它是一个开源项目主要由Wes McKinney、Jeff Reback等人编写而成,最新版本是pandas 0.24.0,附上官网地址。pandas 0.24.0 所支持的Python版本有Python 2.7, 3.5, 3.6, and 3.7.,2019年4月,pandas也将迎来pandas 0.25.0届时将不再支持Python2。
pandas它的目标是成为所有语言中最强大、最灵活的数据分析与操作开源工具,用它的原话来讲就是“it has the broader goal of becoming the most powerful and flexible open source data analysis / manipulation tool available in any language”,目前对于以下类型的数据它的可操作性是比较强:1.表格数据(例如SQL数据表格、Excel数据表中的数据)、2.时间序列、3.带有行和列标签的矩阵数据、4.观测、统计数据集
pandas中包含两种数据类型(Series和DataFrame),可以将pandas看成低纬度数据的容器,标量数据组成Series,Series组成DataFrame,一层层递进,将小的容器放到大的容器中,大的容器放到更大的容器中。