利用Python做数据分析——10分钟入门Pandas(一)

从前的日色变得慢 车,马,邮件都慢 一生只够爱一个人

——木心

原创文章,转载请注明来源。

由于本人近期在部门内做关于Python的分享,打算将分享的内容也同步到这个公总号中,因此在利用Excel做数据挖掘系列文章中会穿插一些与Python相关的内容。

Pandas 是一个非常好用的库,正如名字一样,人见人爱。之所以如此,就在于不论是读取、处理数据,用它都非常简单。我们在这一期中就来看看pandas的两种基础的数据类型Series和DataFrame的基本用法以及如何利用pandas高效导入导出数据。

Pandas 有两种自己独有的基本数据结构。读者应该注意的是:它固然有着两种数据结构,因为它依然是 Python 的一个库。所以,Python 中有的数据类型在这里依然适用,也同样还可以使用除了自己定义数据类型。只不过,Pandas 里面又定义了两种数据类型:Series 和 DataFrame,它们让数据操作更简单了。

本文后续的操作都是基于引入约定:

1

Series数据类型

2

DataFrame数据类型

DataFrame 是一种二维的数据结构,他可以被看做由Series组成的字典,非常接近于电子表格或者类似 mysql 数据库的形式。它的竖行称之为 columns,横行称之为 index。 构建DataFrame的办法很多,常用的一种是直接传入一个由等长列表构建的字典:

3

数据的导入与导出

pandas可以方便的读取/存储各种格式的数据,通常读取用read_xx(),导出用to_xx()。

以下为几种常用的操作:

pd.read_csv() 的几种基本用法

什么参数都不设置的情况下,读取进来之后是DataFrame格式,自动生成数字索引。

但是通常这样操作都会提示编码报错:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 2: invalid continuation byte

这是由于文件中包含中文所导致的,解决这一问题的方法可以更改编码类型为gb2312,做法如下:

其他几种常用的参数用法:

pd.read_excel()的几种基本用法

pd.read_clipboard()的基本用法

从剪贴板导入数据非常方便,不论从任何地方复制数据后,直接在Python中运行下面的代码就可以将数据成功导入了。这在处理小规模数据的时候非常灵活便捷。

小结

关于Pandas模块的话题非常丰富,每个人使用Pandas的场景也各不一样。因为我打算以数据分析师的角度,带领大家迅速的了解这个库。在掌握了基本的数据结构前提下,下一期我打算讲解Pandas清理、处理、统计相关方面的应用。

《利用Excel做数据挖掘》这一系列应该会持续很久一段时间,难度会在Excel中处于中等偏上水平。如过觉得这些内容对您有用,请点赞分享给更多的朋友吧,谢谢!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171227G0AJVG00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区