Python统计数据可视化库——seaborn

Visualization of seaborn

  seaborn[1]是一个建立在matplot之上,可用于制作丰富和非常具有吸引力统计图形的Python库。seaborn库旨在将可视化作为探索和理解数据的核心部分,有助于帮人们更近距离了解所研究的数据集。无论是在kaggle官网各项算法比赛中,还是互联网公司的实际业务数据挖掘场景中,都有它的身影。

   在本次介绍的这个项目中,我们将利用seaborn库对数据集进行分析,分别展示不同类型的统计图形。

首先,我们将导入可视化所需的所有必要包,我们将使用到的几个包:

Numpy

pandas

matplotlib

seaborn

   本次使用到的数据集是比较有名的tips(小费)数据集[2]。小费数据集,是一个餐厅侍者收集的关于小费的数据,其中包含了七个变量,包括总费用、付小费的金额、付款者性别、是否吸烟、日期、日间、顾客人数。通过数据分析和建模,可帮助餐厅侍者预测来餐厅就餐的顾客是否会会支付小费。知识改变命运啊~

   让我们先导入tips数据集:

让我们看看数据集前面几行,看看数据集究竟长什么样。

dist plot图

看图说话:上图显示,顾客在餐厅的消费总金额主要是在5-35之间。

count plot图

看图说话:上图显示,来餐厅就餐的顾客,抽烟者比不抽烟者多

看图说话:上图显示,顾客来餐厅就餐,主要是来晚饭多一些,来吃午餐的总次数更少一些。

看图说话:上图显示,2个人来餐厅就餐的总次数多一些。

看图说话:上图显示,顾客主要是周四、周五、周六来餐厅就餐。

joint plot图

看图说话:上图显示,顾客主要消费水平在10-30远之间,而此时,对应给侍者小费的钱在1-5元之间。

另一种清晰地可视化视图,颜色的深度代表频次。

看图说话:通过做一条简单的回归线,它表明了小费的金额是随着总账单金额的增加而增加的。

另一种可视化统计图:某个区域越暗,表明这个区域对应的频次越多。

pair plot图

看图说话:这些图展现了数据集中消费总额、小费金额以及顾客数量三个特征(变量)之间的联系。

在上述基础上,我们再使用两种不同的颜色用于区分性别。

rug plot图

看图说话:上图呈现的是,顾客就餐消费总额在各个值上的边缘分布。

kde plot图

看图说话:KDE代表内核密度估计,它也显示了各个消费总金额数值的统计分布。

bar plot图

看图说话:就餐时消费的账单,男性买单的次数会比由女性买单的次数多一些。

box plot图

看图说话:上图显示大部分账单是在周六和周日支付的。

看图说话:在上面的图表中你可以看到,在周六时,女性买单的次数会比男性多。(难道是因为买买买,男性付了好多钱,女性为了弥补男性的心里落差,然后请吃饭?哈哈)

violin plot

看图说话:voilin plot和box plot很相似,但它结合了box plot图和密度痕迹。

看图说话:增加了性别的区分

strip plot图

看图说话:这幅图呈现的是周四、周五、周六和周日这四天,顾客消费总额的散点图。

看图说话:和上图一样,只不过对性别进行了区别。

swarm plot图

看图说话:Swarn plot和stripplot比较类似,但Swarn plot的不同之处在于它不会重叠数据点。

factor plot图

看图说话:在factorplot图中,你可以给出任何你需要显示的图形。

heat map图

看图说话:热力图可用来显示两变量之间的相关性,在这里两变量间对应的矩形框的颜色越浅,代表两者之间越具有相关性。

cluster map图

看图说话:它显示了分层的集群热图,这个有点复杂了。

pair grid图

看图说话:这个厉害了。在pair grid图中,你可以根据自己需求,在这里呈现上述介绍的各种类型的图形。

参考链接:

[1]seaborn官网

[2]tips数据集

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180613G0RAGI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券