数据分析少不了 Pandas 这个神器!
它就像是 Excel 和 Python 的完美结合体,特别擅长处理表格数据。
说实话,我第一次接触 Pandas 的时候也是一脸懵,不过慢慢就发现它简直是数据处理的得力助手。
今天咱们就一起来看看 Pandas 的基本操作,保证学完就能处理日常遇到的数据分析任务!
认识 DataFrame:数据表格的代言人
DataFrame 可以理解成一个超级表格,跟 Excel 表格差不多,但是功能强大太多了。
来看个简单例子:
import pandas as pd
# 创建一个简单的DataFrame
data = {
'姓名': ['小明', '小红', '小张'],
'年龄': [18, 20, 19],
'成绩': [85, 92, 78]
}
df = pd.DataFrame(data)
print(df)
温馨提示:创建 DataFrame 时,字典的键就是列名,值就是每列的数据哦!
数据查看和筛选:找到你要的那一行
有了数据,咱们得知道怎么查看和筛选。
看这个:
# 查看前两行数据
print(df.head(2))
# 筛选成绩大于80分的学生
high_score = df[df['成绩'] > 80]
print(high_score)
还可以用loc和iloc来精确定位数据。loc用标签索引,iloc用数字索引,刚开始容易搞混,我当时就经常弄错。
数据处理:简单又好用的函数
Pandas 里有超多处理数据的函数,比如计算平均值、求和啥的,太方便了:
# 计算成绩平均值
avg_score = df['成绩'].mean()
print(f'平均分:{avg_score}')
# 对数据进行排序
sorted_df = df.sort_values('成绩', ascending=False)
print(sorted_df)
温馨提示:用sort_values排序时,ascending=True是升序,False是降序,别记反了!
数据清洗:处理烦人的空值
实际工作中的数据往往不会那么完美,经常会遇到缺失值。
处理起来也简单:
# 检查空值
print(df.isnull().sum())
# 填充空值
df.fillna(value=0, inplace=True) # 把空值都填成0
数据分组:找出数据的规律
分组操作可以帮我们发现数据中隐藏的规律:
# 按年龄分组计算平均分
age_groups = df.groupby('年龄')['成绩'].mean()
print(age_groups)
数据分析最有意思的就是能发现这些隐藏的模式,有时候一个简单的分组就能看出很多门道。
实际工作中,基本上用这些操作就能搞定大部分数据处理的需求了。Pandas 还有很多高级功能,不过这些基础操作已经能帮你解决不少问题啦!
记住一点:多动手实践才是王道!光看不练假把式,建议你把这些代码都敲一遍,遇到不懂的就查文档,慢慢就熟悉了。
你要是觉得某个操作不够直观,就把数据打印出来看看,这招屡试不爽!再不行就画个图,用 Pandas 配合 matplotlib 分分钟就能出图,数据一目了然。
点赞分享
让钱和爱流向你
领取专属 10元无门槛券
私享最新 技术干货