箱型图的作用:
1.直观明了地识别数据批中的异常值 其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱型图在识别异常值方面有一定的优越性。
2.利用箱型图判断数据批的偏态和尾重 对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
函数原型
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
导入数据
tips = pd.read_csv('tips.csv')tips.head()
绘制total_bill的箱型图
sns.boxplot(x=tips["total_bill"])
以day为x轴,total_bill为y轴绘制箱型图
sns.boxplot(x="day", y="total_bill", data=tips)
以day为x轴,total_bill为y轴,按照smoke区分类别,调色方案为Set3,绘制箱型图
sns.boxplot(x="day", y="total_bill", hue="smoker", data=tips, palette="Set3")
以day为x轴,total_bill为y轴,按照time区分类别,描边宽度为1.5,绘制箱型图
sns.boxplot(x="day", y="total_bill", hue="time", data=tips, linewidth=1.5)
导入鸢尾花数据
iris = pd.read_csv('iris.csv')iris.head()
绘制鸢尾花数据箱型图
sns.boxplot(data=iris, orient="h", palette="Set2")
区分数据类别绘制箱型图
tips["weekend"] = tips["day"].isin(["Sat", "Sun"])ax = sns.boxplot(x="day", y="total_bill", hue="weekend", data=tips, dodge=False)
以上就是箱型图的分享,下期我们将分享小提琴图seborn.violinplot的绘制方法。
如果喜欢,请点赞和收藏,这对我非常重要,万分感谢。
领取专属 10元无门槛券
私享最新 技术干货