Python数据分析过程

此篇文章介绍了如何用Python进行数据分析,主要目的是理清思路、梳理逻辑,涉及的是一些常用的命令代码。

Python数据分析过程(基础版)

此篇文章介绍了如何用Python进行数据分析,主要目的是理清思路、梳理逻辑,涉及的是一些常用的命令代码。

目录

1. 读取 CSV 文件

1.1 标题

1.2 索引

2. 评估和理解数据

2.1 数据索引和选择

2.2 选择多个范围

3. 清理数据

3.1 缺失值

3.2 重复值

3.3 数据类型的转化

3.4 重命名列

4. 得出结论

5. 传达结果

6. 简单可视化

1. 读取 CSV 文件

先尝试读取一份银行贷款数据集( csv 文件,编的实验数据不代表真实性)。使用的是方法,用于将数据从 csv 文件加载到 Pandas 数据框中。只需要指定数据的文件路径。我已经将存储在与 Jupyter notebook 相同的目录下,所以只需要提供文件名,否则需要添加。

是一个有用的功能,可以在数据框上调用,用于显示前几行。

output:

请记住,CSV 代表逗号分隔值,但这些值实际可用不同的字符、制表符、空格等分隔。例如,如果文件用逗号分隔,仍然可以将与参数一起使用。

output:

明显没有成功,因为 CSV 文件是用逗号分隔的。由于没有冒号,没有被分隔的值,所有值都被读取到一个列!

1.1 标题

的另一个功能是指定文件的哪一行作为标题,而标题指定了列标签。通常第一行是标题,但有时如果文件顶部有额外的元信息,我们希望指定另一行作为标题。可以这样操作。

output:

output:

还可以用以下方法自己指定列标签。

output:

如果想告诉 pandas,正在替换的数据包含标题行,可以用以下方法指定这一行。

output:

1.2 索引

除使用默认索引(从 0 递增 1 的整数)之外,还可以将一个或多个列指定为数据框的索引。

output:

output:

这个功能可单独用于进行多种操作,例如解析日期、填充空值、跳行等。可以在后面进行不同步骤,实现这些操作。可以在这里:pandas 读取csv文档查看如何用这个功能进行操作。

2. 评估和理解数据

一旦将数据加载到数据框中,Pandas 会非常简单、快速地对数据进行调查。

output:

output:(735, 9)

output:

output:

output:

output:

2.1 在 Pandas 中进行数据索引和选择

有时我们只需要分析其中的部分列,因此需要对数据进行列的选择,主要有以下几种办法。假设我们需要筛选出从到列的数据。

output:

可以使用和选择数据。可以点击这里,了解和的更多信息。使用行标签或列标签选择数据,而使用索引号。

output:

output:

2.2 在 Pandas 中选择多个范围

选择上述数据框的列非常简单,因为需要选择的列都在一起。但如果所需列是分开的,无法在一个范围内指定全部,就需要用其他方法。点击这里:stackoverflow 链接学习如何在 Pandas 中选择多个范围。

假设我们需要筛选出、、、列的数据。

output:

output:

3. 清理数据

练习缺失值和重复值的处理。

3.1 缺失值

output:

output:

3.2 重复值

output:41

output:0

3.3 数据类型的转化

使用pandas的astype函数将、、列转换为型

output:

3.4 重命名列

在绘制图形时,多数不支持中文,因此可以重命名列,使用的是方法。

output:

4. 得出结论

由于此篇为基础版,因此没有涉及过多的数据分析、机器学习的方法,主要回答以下的几个问题得出分析的结论。

1.30岁(含)以下人群的总收入与信用卡总负债情况

2.30岁(含)以下人群、31岁到39岁及40岁(含)以上人群的总收入总比情况

output:

output:

30岁(含)以下人群的总收入约为 6806 元。

30岁(含)以下人群的信用卡总负债约为 219 元。

output:

0岁(含)以下人群总收入占比为 0.21 。

31岁到39岁人群总收入占比为 0.34 。

40岁(含)以上人群总收入占比为 0.45 。

5. 传达结果(创建具有适当标签、颜色和尺寸的图)

output:

output:

6. 简单可视化

output:

output:

output

敬请期待:数据分析过程(进阶版)

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180826G0FNCN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券