图片来自@AIGC
推荐:一本书精通3D科研绘图与学术图表绘制的核心技术!
问题: 请写出一个 Python 代码,使用 pandas 库读取一个 CSV 文件,然后进行数据清洗和分析。
提示: 假设 CSV 文件内容如下:
姓名,年龄,性别,身高,体重
张三,25,男,175,70
李四,30,男,180,75
王五,28,女,165,55
赵六,35,男,170,80
考察点: pandas 库的基本操作、数据清洗、数据分析基础
问题分析:
实战应用场景分析:这种任务常见于数据处理和分析领域。通过 pandas 库可以方便地加载、处理和分析结构化数据,适用于各种数据集的清洗和分析工作。
解答代码:
import pandas as pd
# 读取CSV文件
df = pd.read_csv('./static/02_data.csv')
# 查看数据的前几行
print(df.head())
# 数据清洗
# 1. 检查缺失值
print("缺失值情况:")
print(df.isnull().sum())
# 2. 检查重复值
print("\n重复值情况:")
print(df.duplicated().sum())
print("-------------------------------")
# 如果有缺失值或重复值,可以根据实际情况进行处理,例如删除重复值 df.drop_duplicates() 或填充缺失值 df.fillna()。
# 数据分析
# 计算平均年龄、身高和体重
average_age = df['年龄'].mean()
average_height = df['身高'].mean()
average_weight = df['体重'].mean()
print(f"\n平均年龄:{average_age} 岁")
print(f"平均身高:{average_height} cm")
print(f"平均体重:{average_weight} kg")
代码解析:
pd
。pd.read_csv()
方法读取名为'data.csv'的CSV文件,并将数据存储在DataFrame对象df
中。df.head()
查看了数据的前几行,以便了解数据的结构和内容。df.drop_duplicates()
或填充缺失值df.fillna()
。拓展分享:这个例子展示了如何使用pandas库进行数据的读取、清洗和分析。
在实际工作中,你可能会面对更复杂的数据处理任务,需要使用pandas提供的更多功能和方法来处理不同类型的数据。
同时,还可以结合其他库如 matplotlib、seaborn 等进行数据可视化,以更直观地了解数据的特征和趋势。