每日一问_02_使用Pandas做简单的数据处理分析

老表

发布于 2023-09-09 09:52:50

1310

发布于 2023-09-09 09:52:50

文章被收录于专栏：用户2910674的专栏用户2910674的专栏

项目记录 Github : https://github.com/XksA-me/daily_question

图片来自@AIGC

推荐：一本书精通3D科研绘图与学术图表绘制的核心技术！

公众号：简说Python 今日每日一题

问题：请写出一个 Python 代码，使用 pandas 库读取一个 CSV 文件，然后进行数据清洗和分析。

提示：假设 CSV 文件内容如下：

姓名,年龄,性别,身高,体重
张三,25,男,175,70
李四,30,男,180,75
王五,28,女,165,55
赵六,35,男,170,80

考察点： pandas 库的基本操作、数据清洗、数据分析基础

问题分析和解答

问题分析：

首先，我们需要使用 pandas 库来读取 CSV 文件。
接下来，进行数据清洗，例如处理缺失值、重复值等。
然后，可以进行一些简单的数据分析，比如计算平均年龄、身高等。

实战应用场景分析：这种任务常见于数据处理和分析领域。通过 pandas 库可以方便地加载、处理和分析结构化数据，适用于各种数据集的清洗和分析工作。

解答代码：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('./static/02_data.csv')

# 查看数据的前几行
print(df.head())

# 数据清洗
# 1. 检查缺失值
print("缺失值情况：")
print(df.isnull().sum())

# 2. 检查重复值
print("\n重复值情况：")
print(df.duplicated().sum())
print("-------------------------------")

# 如果有缺失值或重复值，可以根据实际情况进行处理，例如删除重复值 df.drop_duplicates() 或填充缺失值 df.fillna()。

# 数据分析
# 计算平均年龄、身高和体重
average_age = df['年龄'].mean()
average_height = df['身高'].mean()
average_weight = df['体重'].mean()

print(f"\n平均年龄：{average_age} 岁")
print(f"平均身高：{average_height} cm")
print(f"平均体重：{average_weight} kg")