关于密度函数、分布函数与生存函数的一点看法(一)

统计中经常会涉及到密度函数、分布函数与生存函数的概念,如何透彻的理解这三个函数呢,以下是我的一点理解与看法:

何为生存函数?电梯用了六年还能否继续使用?一个人活了六年还能否再活5年?这些问题都是生存函数研究的领域,一般保险公司会更为关注生存函数。

何为分布函数?一个企业的破产概率,对应的就是不破产的概率,那么分布函数的对立面就是生存函数,生存函数和分布函数是成对儿存在的。

那么密度函数呢?统计中能叫出名字的分布大约有400个左右,例如正态、卡方、F、t、泊松、均匀、指数、二项等等,从事精算相关的工作,如财险精算需要分析师对分布的了解要深些多些。寿险精算对分析师对分布的了解要求略低,因为寿险精算领域已经相对比较成熟,不过蛮有危机的事是未来寿险领域精算师非常有可能被模型所替代。刚提到的400个分布的分布函数间、生存函数间的差别非常小,但是他们的密度函数的差别却非常大,所以统计中提到分布这个词要明白衡量的是密度函数,密度函数研究的主要是变量的图形探索,SAS中一般会用univariate过程步去探索查看密度函数。

下面用实际数据来进一步说明分布函数、生存函数与密度函数的计算方法,如下为学生成绩,将分数进行等距分箱,同时分别计算出向上的累计人数、累计人数占比与向下的累计人数、累计人数占比,可以得到如我下表统计的数据表格样例。分别针对向上累计比率与向下累计比率作图,那么向上累计比率的分布图即为分布函数,向下累计比率的分布图即为生存函数,分数的比例分布即为密度函数,如下图所示。一般分布函数与生存函数差异不大,变化较大的是密度函数,所以统计中提到分布的时候,一般指的是密度函数。

下一篇文章,就来详细说说关于密度函数的一点见解吧~

原文发布于微信公众号 - Data Analyst(DataAnalyst0802)

原文发表时间:2019-02-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券