请思考:
1 为什么要数据可视化?
2 pandas如何实现数据可视化?
一 简介
我们常用Python语言的matplotlib库和seaborn库实现数据可视化。实际上,pandas基于其数据框结构也能够便捷地绘制出各种类型的图形,以实现数据可视化的目的。
二 导入数据集
我们采用titanic数据集。
代码
1import numpy as np
2import matplotlib.pyplot as plt
3import pandas as pd
4
5%matplotlib inline
6
7titanic_data = pd.read_csv('./data/titanic_train.csv')
8# 数据检视
9print(titanic_data.head())
三 直方图
使用hist()函数或者plot()函数并设置参数kind的值为'hist'。
实例1
代码
1titanic_data['age'].hist()
实例2
代码
1titanic_data['age'].plot(kind='hist', bins=20)
实例3
增加图形风格设置
代码
1import seaborn as sns
2sns.set_style('darkgrid')
3
4titanic_data['age'].hist(bins=20)
请思考:
直方图在什么时候使用?通过直方图可以发现什么?
四 直线图
使用line()函数。
实例1
代码
1titanic_data.plot.line(x='age', y='fare', figsize=(8, 6))
五散点图
使用scatter()函数。
实例1
代码
1titanic_data.plot.scatter(x='age', y='fare', figsize=(8, 6))
六盒箱图
代码
1titanic_data.plot.box(figsize=(10, 8))
七 核密度曲线图
使用kde()函数。
实例1
代码
1titanic_data['age'].plot.kde()
请思考:
如何绘制目标变量survived分布的可视化?