前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于密度函数的一点看法(二)

关于密度函数的一点看法(二)

作者头像
许卉
发布2019-07-15 17:05:28
6810
发布2019-07-15 17:05:28
举报
文章被收录于专栏:Data AnalystData Analyst

数据探索时涉及到的三个函数为密度函数、分布函数与生存函数,其中样本的分布函数的形态、生存函数的形态基本没有太大变化,然而样本的密度函数分布形态却有着很大的差异,所以一般在进行数据分析领域提到分布时,指的都是直方图所描述的密度函数。

依据密度函数的形状,可以将数据分布大致分为四种,需要分析师能够做到 看到每种分布图 就能解读出分布背后所隐含的信息,以下是我对这四种密度函数分布形态的理解:

一、钟型分布

生活中正常、平常的事件,基本上都服从钟型分布,分布特征为两头小中间大,即靠近中间的变量值分布的次数多、靠近两端的变量值分布次数少,宛如钟型。这种分布迎合了数据分析中绝大多数的情况,所以大部分生活中的情况都可以假定服从钟型分布。

钟型分布分为两种类型,对称钟型和非对称钟型,对称钟型分布的特征是中间变量值分布次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈现对称分布。

对称钟型中正态分布最为常见,许多生活现象的统计分布都趋于正态分布,例如公司的平均产出量、水果价格等等。一般工作中较常用的回归模型是要求Y是正态分布的,其实回归还有一个不太严格的假定,那就是要求参加回归的自变量X最好也是正态。所以,在建模前,是需要进行数据描述查看数据分布的,如果样本非正态也没有关系,但起码要服从钟型分布。

下图即为实际数据样例中的一个钟型分布:

二、水平分布

生活中涉及到水平分布的事例比较少,水平分布的特征是总体内各个变量值分布的次数大体相等,图形表示为平行于横轴的一条水平线。数据分析进行分箱时,一个完美的分箱体系要求分组后的组内数据是要服从水平分布的,也就是组内同质现象。

一般,生活中平常用不到、用到时绕不开的东西基本是服从水平分布的,例如丧葬用品。生活中基本不会看见丧葬用品搞促销,这类产品的特点是价格弹性非常小、价格基本呈现水平分布。

下图即为实际样例中的水平分布:

三、U型分布

一般和“死亡”相关的事件会服从钟型分布,例如企业破产、用户流失。如果研究客户的生命周期,客户在刚刚几乎要成为你的客户之前 与 后期有比较大的决心要离开的时候 流失概率是最高的,中间阶段则不太容易流失。人的死亡概率也是同理,刚出生和老年阶段死亡概率最高。企业存亡也同样服从U型分布,初创和饱和期的时候非常容易破产,鼎盛时期破产概率则为最低。

下图即为实际样例中的U型分布:

四、J型分布

钟型分布的中间是正常情况、尾部是异常情况,J型分布很像钟型分布的尾部,所以J型分布是描述一些比较极端异常的情况。例如08年的汶川地震、灾害。一般保险公司较关注这种分布。

J型分布还可以用来研究人的偏好,一般人上网经常浏览的网站不超过6个,如果按照访问频率将经常访问的网站进行排序,其分布形态就是J型分布,再比如爱吃的东西,按照偏好分布进行排序也是服从J型分布。在进行网站点击率分析时,如果网站的点击率是J型分布,并且分布拖尾较长则意味着网站的设计较为失败,证明网站的大部分内容没人看,一个设计出色的网站访问的分布应该是水平分布,当然这是很难实现的,一般正态形态也是比较合理的,当然J型分布的肯定是说明网站设计比较失败了。

下图即为J型分布的样例:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档