前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas 读取csv 数据 read_csv 参数详解

pandas 读取csv 数据 read_csv 参数详解

作者头像
上海-悠悠
发布2024-04-18 16:01:58
2310
发布2024-04-18 16:01:58
举报

前言

Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 主要引入了两种新的数据结构:DataFrame 和 Series。

环境准备:

代码语言:javascript
复制
pip install pandas

read_csv 参数详解

pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数:

  • filepath_or_buffer: 要读取的文件路径或对象。
  • sep: 字段分隔符,默认为,。
  • delimiter: 字段分隔符,sep的别名。
  • header: 用作列名的行号,默认为0(第一行),如果没有列名则设为None。
  • names: 列名列表,用于结果DataFrame。
  • index_col: 用作索引的列编号或列名。
  • usecols: 返回的列,可以是列名的列表或由列索引组成的列表。
  • dtype: 字典或列表,指定某些列的数据类型。
  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
  • nrows: 需要读取的行数(从文件开头算起)。
  • skipfooter: 文件尾部需要忽略的行数。
  • encoding: 文件编码(如’utf-8’,’latin-1’等)。
  • parse_dates: 将某些列解析为日期。
  • infer_datetime_format: 如果 True 且 parse_dates 未指定,那么将尝试解析日期。
  • iterator: 如果 True,返回 TextFileReader 对象,用于逐块读取文件。
  • chunksize: 每个块的行数,用于逐块读取文件。
  • compression: 压缩格式,例如 ‘gzip’ 或 ‘xz’

filepath_or_buffer要读取的文件路径或对象

filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str] 可以接收3种类型,文件路径,读取文件的bytes, 读取文件的str

  • 可以接受任何有效的字符串路径。 该字符串可以是 URL。 有效的 URL 方案包括 http、ftp、s3、gs 和 file。 对于文件 URL,需要主机。 本地文件可以是: file://localhost/path/to/table.csv。
  • 如果你想传入一个路径对象,pandas 接受任何 Path.
  • 我们所说的类文件对象是指具有 read() 方法的对象,例如文件句柄(例如通过内置 open 函数)或 StringIO。

data.csv 测试数据

代码语言:javascript
复制
name,sex,age,email
张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com
李七,男,23,124@qq.com
小明,女,24,125@qq.com
张山,女,24,126@qq.com
王二,男,23,127@qq.com
王九,男,23,128@qq.com
李明,男,20,129@qq.com
刘三,男,29,130@qq.com
刘四,男,28,131@qq.com
代码语言:javascript
复制

import pandas
from pathlib import Path

# 1.相对路径,或文件绝对路径
df1 = pandas.read_csv('data.csv')
print(df1)

# 文件路径对象Path
file_path = Path(__file__).parent.joinpath('data.csv')
df2 = pandas.read_csv(file_path)
print(df2)

读取一个url地址,http://127.0.0.1:8000/static/data.csv, 此地址是一个data.csv文件在线下载地址

代码语言:javascript
复制
df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')
print(df3)

也可以是一个文件对象

代码语言:javascript
复制
with open('data.csv', encoding='utf8') as fp:
    df4 = pandas.read_csv(fp)
    print(df4)

sep: 字段分隔符,默认为,

sep 字段分隔符,默认为, delimiter(同sep,分隔符)

代码语言:javascript
复制
df1 = pandas.read_csv('data.csv', sep=',')
print(df1)

df2 = pandas.read_csv('data.csv', delimiter=',')
print(df2)

header 用作列名的行号

header: 指定哪一行作为列名,默认为0,即第一行,如果没有列名则设为None。 如下数据,没有header

代码语言:javascript
复制
张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com

读取示例

代码语言:javascript
复制
df6 = pandas.read_csv('data2.csv', header=None)
print(df6)

names自定义列名

names自定义列名,如果header=None,则可以使用该参数。

代码语言:javascript
复制
df6 = pandas.read_csv(
    'data2.csv',
    header=None,
    names=['姓名', '性别', '年龄', '邮箱'])
print(df6)

如果有header,也可以使用names自定义列名

代码语言:javascript
复制
df7 = pandas.read_csv(
    'data.csv',
    header=0,
    names=['姓名', '性别', '年龄', '邮箱'])
print(df7)

那么读取结果

代码语言:javascript
复制
    姓名 性别  年龄          邮箱
0   张三  男  22  123@qq.com
1   李四  男  23  222@qq.com
2   王五  女  24  233@qq.com
······

index_col 用作行索引的列编号或列名

index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。 如果设置为None(默认值),CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作DataFrame的索引。

代码语言:javascript
复制
import pandas as pd

# 我们想要将'`email`'列作为DataFrame的索引

df8 = pd.read_csv('data.csv', index_col='email')
print(df8)

# 或者,如果我们知道'email'列在第4列的位置,也可以这样指定
df9 = pd.read_csv('data.csv', index_col=3)
print(df9)

usecols 读取指定的列

usecols 读取指定的列,可以是列名或列编号。

代码语言:javascript
复制
import pandas as pd

# 1.指定列的编号
df10 = pd.read_csv('data.csv', usecols=[0, 1])
print(df10)

# 2.指定列的名称
df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])
print(df11)

dtype 指定每列的数据类型

dtype参数在pandas.read_csv函数中用于指定列的数据类型。当你知道某些列的数据类型时,可以使用dtype参数来提高读取文件的效率,并且可以预防可能发生的类型错误。

代码语言:javascript
复制
name,sex,age,email
张三,男,22,123@qq.com
李四,男,23,222@qq.com

默认情况下age得到的是int类型

代码语言:javascript
复制
df12 = pd.read_csv('data.csv')
print(df12.to_dict())

结果:‘age’: {0: 22, 1: 23, 2: 24, 3: 22, 4: 23 ….

可以指定age变成str或者float类型

代码语言:javascript
复制
df13 = pd.read_csv('data.csv', dtype={"age": str})
print(df13.to_dict())

结果:‘age’: {0: ‘22’, 1: ‘23’, 2: ‘24’, 3: ‘22’, 4: ‘23’

skiprows 、nrows 和skipfooter

skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。 nrows: 需要读取的行数(从文件开头算起) skipfooter: 文件尾部需要忽略的行数。

代码语言:javascript
复制
import pandas as pd

# 跳过前面2行
df15 = pd.read_csv('data.csv', skiprows=2)
print(df15)

nrows 需要读取的行数

代码语言:javascript
复制
import pandas as pd

# 读取前面2行
df15 = pd.read_csv('data.csv', nrows=2)
print(df15)

skipfooter: 文件尾部需要忽略的行数。

代码语言:javascript
复制
import pandas as pd

# 忽略文件尾部3行
df15 = pd.read_csv('data.csv', skipfooter=3)
print(df15)

parse_dates 将某些列解析为日期

数据文件ddd.csv

代码语言:javascript
复制
name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10

读取示例

代码语言:javascript
复制
import pandas as pd

# 1.指定列的编号
df16 = pd.read_csv('ddd.csv')
print(df16)

读取结果

代码语言:javascript
复制
    name      time        date
0    Bob  21:33:30  2019-10-10
1  Jerry  21:30:15  2019-10-10
2    Tom  21:25:30  2019-10-10
3  Vince  21:20:10  2019-10-10
4   Hank  21:40:15  2019-10-10

默认读取的date日期是字符串类型,使用parse_dates 参数转成datetime类型

代码语言:javascript
复制
import pandas as pd

df16 = pd.read_csv('ddd.csv')
print(df16.to_dict())   # 'date': {0: '2019-10-10', 1: '2019-10-10',

df17 = pd.read_csv('ddd.csv', parse_dates=['date'])
print(df17.to_dict())  # 'date': {0: Timestamp('2019-10-10 00:00:00')
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 从零开始学自动化测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • read_csv 参数详解
  • filepath_or_buffer要读取的文件路径或对象
  • sep: 字段分隔符,默认为,
  • header 用作列名的行号
  • names自定义列名
  • index_col 用作行索引的列编号或列名
  • usecols 读取指定的列
  • dtype 指定每列的数据类型
  • skiprows 、nrows 和skipfooter
  • parse_dates 将某些列解析为日期
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档