最近看过很多居民收入的分布图,很困惑他们的数据从哪里来,怎么统计的,数据可信度高吗?
我尝试在国家统计局,找到了最相关的数据:“2024年全国居民按收入五等份分组的收入情况”。
第一步,肯定要弄清楚口径:
全国居民五等份收入分组是指将所有调查户按人均收入水平从低到高顺序排列,平均分为五个等份,处于最低20%的收入家庭为低收入组,依此类推依次为中间偏下收入组、中间收入组、中间偏上收入组、高收入组。
第二步,弄清楚居民收入的分布,很重要:
收入这种社会属性数据,一般符合正态分布/偏态分布,也就是中间居多(中国社会更加注重公平),两端偏低。通过五组收入取相邻两个收入的中间值(平均值),我们将收入等分为10份了。
计算这组数据的平均值、标准差、方差来分析收入数据的分布特征:
数据范围极广:最小值为 9,542,最大值为 121,534,相差 12.7 倍。显著右偏:平均值 (50,184.45) 远大于中位数 (约 38,783.5)。高离散度:标准差 (37,434.61) 达到平均值的 74.6%,表明数据点高度分散。分布形态:数据呈现明显的右偏分布(正偏态),大部分数据集中在左侧,少数极大值拉高平均值
因此我将使用经验分布函数(EDF)而非假设正态分布。
第三步,拟合 分位点人数与收入:
由于是偏态分布,已有数据无法推算高收入人群的具体占比,所以这里我们 预留了1%的高收入人群。