Python笔记-数据加载、存储与文件格式(1)

数据加载、存储与文件格式一共分为四部分:

1⃣️读写文本格式中的数据

2⃣️二进制数据格式

3⃣️Web APIs交互

4⃣️数据库交互

总述

读写文本格式中的数据

看图就可以,整个框架如下图所示:

01

常用函数举例

常用函数中,最常用的是read_csv和read_table

逗号分隔举例

在这个地方的cat,Mac环境下省去!直接输入cat即可

无标题行举例

读入文件有两种方式:第一种是pandas默认分配序号,另一种则为自定义列名,并且能够确定索引:

多列转层次化索引举例

如图:

非固定分隔符分隔字段

不是所以的源数据都按照固定分隔符大小来进行分隔,这个时候就要进行调整,此处使用的是正则表达式:

处理异形文件格式

此处举例跳过注释行,只留下数据行:

序列函数

缺失值处理,缺失值的表现形式可以为NA,或者为空,这个时候需要进行统一处理,此外,除了缺失值处理,还可以用不同的NA值来进行标记:

read_csv&read_table

以下是常用read_csv和read_table选项:

逐块读取文本文件

读取几行加入nrows的限制条件即可,逐块读取以下代码所示:

将数据写出到文本格式

最基础的是逗号分隔:

其他分隔符在sep选项设置即可,在这里同样涉及到缺失值处理的问题:缺失值在输出结果中会被表示为空字符串

指定序列:a,b,c

除了之前的CSV方法,Series还有自己的to_csv

还有一个导图忘记截图的重点:如果没有设置其他选项,则会写出行和列的标签。当然,它们也都可以被禁用:

index&header

处理分隔符格式

由于接收到含有畸形行的文件而使read_table出毛病的情况并不少见,所以需要对数据 进行手工处理:

这个地方的用来定义新格式的类:

CSV语支选项:

还是那句话,温故而知新,可以为师矣。

另外,古人云,书读百遍,其义自见也不是没有道理的,

学习完了多回去总结总结,能得到更多新的东西 。

觉得好看就给我点个好看吧~

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20190102G16TYO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券