首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用Python进行数据分析(九)

二进制数据格式

pickle序列化

实现二进制存储最简单方法就是使用pickle序列化。

pandas可以用把frame以pickle形式保存到磁盘上的方法。读取使用的是。

使用HDF5格式

HDF指层次型数据格式(hierarchical data format)。HDF5支持多种压缩器的即时压缩,还能高效存储重复模式数据,还可以高效分块读写,所以对非常大的无法直接放入内存的数据集就非常有效。

HDF5库有两个接口分别是PyTables和h5py。处理海量数据(io密集型 重复读写磁盘数据)时,这两个接口非常符合要求。

读取Microsoft Excel文件

读取xls或者xlsx文件得到ExcelFile实例

实例再通过parse读取到DataFrame中:

使用HTML和Web API

访问这些提供了数据的API最简单的方法使用requests包。

很多的Web API返回的都是JSON字符串,我们先要加载到Python对象中:

使用数据库

数据库目前主要有两种,一种是SQL关系数据库(SQL Server,MySQL等),另外就是NoSQL(Not Only SQL)。

存取MongoDB中的数据

首先连接上MongoDb实例:

写入数据:

读取数据:

总结

这章和上一章总结了一般情况下如何加载常用的其他来源的数据,存储,查询等。来源主要有常用的文本,表格,json,数据库等等。既然数据已经加载完毕,那么下一章节就该开始清洗,规整一下这些数据了。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180107G0MATD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券