文章/答案/技术大牛

发布

Python读写csv文件专题教程

共 3 篇文章

Python读写csv文件专题教程(1)

Python读写csv文件专题教程(2)

Python读写csv文件专题教程(3)

清单首页Python读写csv文件专题教程文章详情

清单「Python读写csv文件专题教程」 02/03

Python读写csv文件专题教程(2)

double

第275篇原创

上篇：Python读写csv文件专题教程(1)

2.3 通用解析框架

dtype

承接前文，test.csv读入后数据框如下：

In [6]: df = pd.read_csv('test.csv',sep='\s+')                                  In [7]: df                                                                      Out[7]:    id  id.1  age0   1  'gz'   101   2  'lh'   12

使用dtypes查看每一列的数据类型，如下：

In [8]: df.dtypes                                                               Out[8]: id       int64id.1    objectage      int64dtype: object

如果我想修改age列的数据类型为float，read_csv时可以使用dtype调整，如下：

In [9]: df = pd.read_csv('test.csv',sep='\s+',dtype={'age':float})              
In [10]: df                                                                     Out[10]:    id  id.1   age0   1  'gz'  10.01   2  'lh'  12.0
In [11]: df.dtypes                                                              Out[11]: id        int64id.1     objectage     float64dtype: object

这个参数有用之处可能体现在如下这个例子，就是我某列的数据：

label0102

如果不显示的指定此列的类型str, read_csv解析引擎会自动判断此列为整形，如下在原test.csv文件中增加上面一列，如果不指定dtype, 读入后label列自动解析为整型

In [48]: df = pd.read_csv('test.csv',sep='\s+')                                 
In [49]: df                                                                     Out[49]:    id  id.1  age  label0   1  'gz'   10      11   2  'lh'   12      2

如果按照如下指定：

In [51]: df = pd.read_csv('test.csv',sep='\s+',dtype={'label':str})             
In [52]: df                                                                     Out[52]:    id  id.1  age label0   1  'gz'   10    011   2  'lh'   12    02

这样才能符合我们的预期

engine

Pandas目前的解析引擎提供两种：c, python，默认为c, 因为c引擎解析速度更快，但是特性没有python引擎高，如果使用c引擎没有的特性时，会自动退化为python引擎。

converters

converters参数是键为某列，值为函数的字典，它完成对列数据的变化操作，如下所示：

In [54]: df = pd.read_csv('test.csv',sep='\s+',converters={'age':lambda x:1+int(    ...: x)})                                                                   
In [55]: df                                                                     Out[55]:    id  id.1  age  label0   1  'gz'   11      11   2  'lh'   13      2

完成对age列的数据加1，注意int(x),此处解析器默认所有列的类型为str，所以需要显示类型转换。

true_values

true_values参数指定数据中哪些字符应该被清洗为True, 同理，false_values参数指定哪些字符被清洗为False. 如下所示，修改原数据文件label列的值为：

In [66]: df = pd.read_csv('test.csv',sep='\s+',true_values=['YES'])             
In [67]: df                                                                     Out[67]:    id  id.1  age label0   1  'gz'   10   YES1   2  'lh'   12    NO

现在，我想转化 YES 为 True, NO 为 False. 这样使用参数：

In [68]: df = pd.read_csv('test.csv',sep='\s+',true_values=['YES'],false_values=    ...: ['NO'])                                                                
In [69]: df                                                                     Out[69]:    id  id.1  age  label0   1  'gz'   10   True1   2  'lh'   12  False

注意！这里有处Pandas的parses.py模块该优化的地方，只指定YES 转True ，转化会失败，如下：

In [66]: df = pd.read_csv('test.csv',sep='\s+',true_values=['YES'])             
In [67]: df                                                                     Out[67]:    id  id.1  age label0   1  'gz'   10   YES1   2  'lh'   12    NO

skip_rows

过滤行，数据文件如下：

In [15]: df = pd.read_csv('test.csv',sep='\s+',header=0)                        
In [16]: df                                                                     Out[16]:    id  id.1  age label0   1  'gz'   10   YES1   2  'lh'   12    NO

想过滤掉index为0,1的行，使用skip_rows，如下：

In [17]: df = pd.read_csv('test.csv',sep='\s+',header=0,skiprows=[0,1])         
In [18]: df                                                                     Out[18]: Empty DataFrameColumns: [2, 'lh', 12, NO]Index: []

这与我们预想的不同，通过结果可以揣测skip_rows先发挥作用，此时默认没有header，过滤掉文件的前两行后，此时只剩下第三行，通过header为0，变为df的header. 数据域部分为空。

skiprows还可以被赋值为某种过滤规则的函数

skip_footer

从文件末尾过滤行，解析器退化为python. 这是因为c解析器没有这个特性。

In [23]: df = pd.read_csv('test.csv',sep='\s+',header=0,skipfooter=1)           /home/zglg/anaconda3/bin/ipython:1: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support skipfooter; you can avoid this warning by specifying engine='python'.  #!/home/zglg/anaconda3/bin/python
In [24]: df                                                                     Out[24]:    id  id.1  age label0   1  'gz'   10   YES

nrows

nrows参数设置一次性读入的文件行数，它在读入大文件时很有用，比如16G内存的PC无法容纳几百G的大文件.

此参数可以结合skiprows使用，比如我想从原始文件的第2行(文件第一行为列名)开始一次读入500行，就可以这么写：

df = pd.read_csv('test.csv',sep='\s+',header=None,skiprows = 2, nrows=500    ...: )

这样每次读取一个文件片(chunk)，直到处理完成整个文件。

解析框架的其他两个参数 low_memory, memory_map是布尔型变量，不再详细解释。

2.4 文件空值处理

na_values

这个参数可以配置哪些值需要处理成Na/NaN, 类型为字典，键指明哪一列，值为看做Na/NaN的字符.

假设我们的数据文件如下，date列中有一个 #值，我们想把它处理成NaN值。

In [39]: df = pd.read_csv('test.csv',sep='\s+',header=0)                        
In [40]: df                                                                     Out[40]:    id  id.1  age label       date0   1  'gz'   10   YES  1989-12-11   2  'lh'   12    NO          #

可以使用，na_values实现：

In [41]: df = pd.read_csv('test.csv',sep='\s+',header=0,na_values=['#'])        
In [42]: df                                                                     Out[42]:    id  id.1  age label       date0   1  'gz'   10   YES  1989-12-11   2  'lh'   12    NO        NaN

keep_default_na 是和na_values搭配的，如果前者为True，则na_values被解析为Na/NaN的字符除了用户设置外，还包括默认值。

skip_blank_lines

默认为True, 则过滤掉空行，如为False则解析为NaN. 如下：

In [53]: df = pd.read_csv('test.csv',sep='\s+',header=0,skip_blank_lines=False) 
In [54]: df                                                                     Out[54]:     id  id.1   age label       date0  1.0  'gz'  10.0   YES  1989-12-11  NaN   NaN   NaN   NaN        NaN2  2.0  'lh'  12.0    NO          #3  NaN   NaN   NaN   NaN        NaN

verbose

打印一些重要信息，如下

In [55]: df = pd.read_csv('test.csv',sep='\s+',header=0,verbose=True)           Tokenization took: 0.02 msType conversion took: 0.88 msParser memory cleanup took: 0.01 ms

分别统计了分词、类型转化、解析器内存清理花费的时长。

read_csv的其他参数还包括如下：

时间处理
迭代
文件压缩相关
错误处理
指定列的类型
指定列为 Categorical 类型
基于各种应用场景的参数灵活运用