首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小白学数据可视化:单变量连续型可视化——直方图

这是我的第5篇数据可视化(data visualization)的文章。

本文介绍对数据集中重要的连续型单一变量做可视化分析。比方说,金融科技里面用户信用评分的分布,世界各国的国民经济总产值分布等。我们可以使用直方图来揭示连续型单一变量的分布关系。

直方图简介

直方图,大家都不陌生。很多领域里面都会谈到,大同小异。数学里面,说到了直方图;数据分析里面,说到了直方图;数字图像处理里面,也说到了直方图。直方图,不仅仅是一种很有效的可视化分析工具,还是一种巧妙地特征工程方法

如何做直方图呢?

第一步:对变量分箱。分箱要么指定箱子的数目(ggplot2的直方图默认值是30),要么指定箱子的宽度。

第二步:统计每个箱子所占的频数。

第三步: 针对各个箱子和对应的频数结果绘制图形(与Excel的柱状图相类似了)。

ggplot2包画直方图

第一步:加载R包

第二步:准备数据集

第三步:研究变量weight的分布

采用直方图,并且修饰和完善直方图

接下来对每个柱子做修饰,利用参数fill填充柱子的颜色,参数color设计柱子边框的颜色。

通过参数bins或者binwidth控制直方图所要展示的柱子数目。

或者

直方图默认情况下是采用计数(count)表示,我们采用百分比来表示。

ggplot2包利用ggplot()函数绘制的图像,返回值也可以记录为一个对象,类似变量一样,后续在其基础上,可以继续补充和完善。

在图像对象基础上增添平均线

在图像对象基础上增添核密度曲线

使用变量sex控制分组,并且对每个组添加均值线

更多内容,可以查看geom_histogram()函数帮助文档。可视化分析的时候,要清楚可视化的目的,然后再选择合适的可视化手段,最后再做些锦上添花的事情。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190901A0G3WF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券