首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

探索 Python CSV 模块的高级用法:从格式识别到数据转换的完整指南

CSV(逗号分隔值)是一种用于存储表格数据的文件格式。每一行代表一条数据记录,行内的各个字段由逗号分隔。这是数据领域最常见的文件扩展名之一,也是专业环境中最简单的数据交换格式之一。

作为一名具备 Python 技能的数据专业人士,我相信大家都尝试过使用 csv 模块读取和加载数据。通常,我们对 csv 模块的操作仅限于加载数据,然后继续进行其他任务。

例如,我用 csv 模块读取了来自 Kaggle 的“社会情绪数据”CSV 文件,并展示了所有列名:

import csv

with open('sentimentdataset.csv', newline='', encoding='utf-8') as csvfile:

  reader = csv.reader(csvfile)      

  header = next(reader)      

  print("Columns:", header)

输出结果如下:

Columns: ['', 'Unnamed: 0', 'Text', 'Sentiment', 'Timestamp', 'User', 'Platform', 'Hashtags', 'Retweets', 'Likes', 'Country', 'Year', 'Month', 'Day', 'Hour']

然而,csv 模块能做的远不止这些,很多强大的功能你可能还未发掘。本文将带你探索 csv 模块更多令人惊喜的用法。

1. 自动检测文件格式

csv 模块本意是处理以逗号分隔的数据文件,但借助 Sniffer 方法,你还能让模块检测实际使用了何种分隔符。在彻底读取数据前,可以先识别数据结构(方言)。

例如,以下代码展示了如何用 csv 模块检测文件分隔符:

import csv

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:

  sample = f.read(2048)

  dialect = csv.Sniffer().sniff(sample, delimiters=[',',';','\t'])

  print(f"Detected delimiter: {repr(dialect.delimiter)}")

输出如下:

Detected delimiter: ','

在上述代码中,我们从数据文件头部读取了 2KB 的样本,并设置了要检测的分隔符集合。检测结果即为文件所用的分隔符。

2. 检测文件是否包含表头

csv 模块不仅能检测文件格式,还能判断文件是否包含表头。

检测方法如下:

has_header = csv.Sniffer().has_header(sample)

print("Header detected?" , has_header)

输出结果:

Header detected? True

虽然看起来很简单,但实际工作中,经常会遇到 csv 文件缺少必要表头的情况,导致我们无法理解数据结构。将表头检测纳入数据流程中,有助于及早发现读入文件时的错误。

3. 以列表形式读取数据

通过 csv 模块读取文件时,我们可以将每一条数据组织为列表格式。实现方法如下:

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:

  reader = csv.reader(f, dialect)

  header = next(reader)

  for i, row in enumerate(reader):

      if i >= 1: break

      print(row)

输出如下:

['0', '0', ' Enjoying a beautiful day at the park!              ', ' Positive  ', '2023-01-15 12:30:00', ' User123      ', ' Twitter  ', ' #Nature #Park                            ', '15.0', '30.0', ' USA      ', '2023', '1', '15', '12']

现在,每一行数据都以列表形式呈现,便于进行后续的数据处理。

4. 列名与数值自动映射

利用 csv 模块,可以将每条数据转为类似字典的数据结构,将每个字段名映射到对应的值,这样就可以通过字段名快速访问数据。

例如,以下代码自动将列名映射到“Text”和“Sentiment”两个字段的值:

with open('sentimentdataset.csv', newline='', encoding='utf-8') as f:

  dict_reader = csv.DictReader(f, dialect=dialect)

  for i, row in enumerate(dict_reader):

      if i >= 2: break

      print(row['Text'], row['Sentiment'])

输出如下:

Enjoying a beautiful day at the park!                Positive

Traffic was terrible this morning.                   Negative

如上所示,我们可以通过键值对方式访问每个字段的数据。这种方法让数据处理更加灵活高效。

5. 将 CSV 文件转换为其他格式

csv 模块不仅可以读取文件,也支持将内容转为其他格式。

例如,可以将 csv 文件转换为 gzip 格式:

import csv, gzip

with gzip.open('sentiment.gz', 'wt', newline='', encoding='utf-8') as gz:

  writer = csv.writer(gz)

  for row in csv.reader(open('sentimentdataset.csv', encoding='utf-8'), dialect=dialect):

      writer.writerow(row)

还可以直接将内容输出到标准输出:

import csv, sys

dialect = csv.Sniffer().sniff(sample, delimiters=[',',';','\t'])

writer = csv.writer(sys.stdout)

for row in csv.reader(open('sentimentdataset.csv', encoding='utf-8'), dialect=dialect):

  writer.writerow(row)

合理使用 writer,可以帮助你将数据转为所需的文件格式。

6. 为非数字字段加引号

在 CSV 文件中,字段可能包含逗号、引号或混合类型数据(文本和数字)。为非数字值加上双引号,可以确保其中内容(包括逗号或换行符)被当作单独的字符串值处理,而不会被错误地识别为分隔符。

实现方法如下:

import csv

INPUT = 'sentimentdataset.csv'

OUTPUT = 'quoted_nonnum.csv'

with open(INPUT, newline='', encoding='utf-8') as fin, \

   open(OUTPUT, 'w', newline='', encoding='utf-8') as fout:

  reader = csv.DictReader(fin)

  writer = csv.writer(fout, quoting=csv.QUOTE_NONNUMERIC)

  writer.writerow(['Text', 'Likes'])

  for row in reader:

      writer.writerow([row['Text'], row['Likes']])

上述代码选取了“Text”和“Likes”两列,并对所有非数字值加引号,保留数字值原样。这样可以有效避免数据被错误识别为分隔符。

结论

作为数据专业人士,我们可以利用 Python 的 csv 模块灵活处理 CSV 文件。实际上,这个模块还有许多令人惊喜的高级用法,比如自动格式检测、数据格式转换等。

希望本文对你有所帮助!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O23S6XMUReFZQF3W6U7GhFNA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券