使用Matplotlib和Seaborn进行绘制箱线图和热力图
。
箱线图(boxplot)又称盒式图,可以显示数据的分散情况,由五个数值点组成:最大值(max)-上界、最小值(min)-下界、中位数(median)和上下四分位数(Q1, Q3)。它可以帮我们分析出数据的差异性、离散程度和异常值等。
# 数据准备
# ⽣成0-1之间的10*4维度数据(10行,4列的数组)
import numpy as np
data = np.random.normal(size=(10,4))
lables = ['A', 'B', 'C', 'D']
# ⽤Matplotlib画箱线图
# boxplot(x,labels=None)函数,x代表绘图数据,labels是缺省值,可以为箱线图添加标签。
import matplotlib.pyplot as plt
plt.boxplot(data, labels=lables) #注意单词labels和lables
plt.show()
# ⽤Seaborn画箱线图
# boxplot(x=None,y=None,data=None)函数。data为DataFrame类型,x、y是data中的变量。
import seaborn as sns
import pandas as pd
df = pd.DataFrame(data, columns=lables)
sns.boxplot(data=df)
plt.show()
运行结果:
热力图(heat map)是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色的深浅就能直观地知道某个位置上数值的大小。另外也可以某个位置上的颜色与其他位置颜色进行比较,是一种非常直观的多元变量分析方法。
一般使用Sarborn中的sns.heatmap(data)函数绘制,我们使用Seaborn中自带的数据集flights,该数据集记录了1949年到1960年期间,每个月的航班乘客的数量。一般可能会出网络问题导致的失败。
https://github.com/mwaskom/seaborn-data
运行结果:
1、Seaborn数据集中自带了car_crashes数据集,这是一个国外车祸的数据集,对这个数据集进行成对关系的探索。并用Seaborn画二元变量(x="total,y="speeding")分布图,如果想要画散点图,核密度图,Hexbin图该怎样写.