我正在考虑用R编写一个数据字典函数,它以数据帧为参数,将执行以下操作:
1)创建文本文件,该文件:
a.通过按类别列出变量的数量、观察值的数量、完整观察值的数量…来汇总数据帧等
b.对于每个变量,总结关于该变量的关键事实:均值、最小值、最大值、模式、丢失观察值的数量…等
2)创建包含每个数值或整数变量的直方图和每个属性变量的条形图的pdf。
其基本思想是创建具有一个函数的数据框的数据字典。
我的问题是:有没有包已经做到了这一点?如果不是,人们会认为这是一个有用的函数吗?谢谢
发布于 2011-10-08 16:36:30
在不同的包中有各种describe函数。我最熟悉的是Hmisc::describe。以下是其帮助页面中的描述:
此函数确定变量是否为字符、因子、类别、二进制、离散数字和连续数字,并根据每个变量打印简明的统计摘要。如果数值变量具有<= 10个唯一值,则将其视为离散变量。在这种情况下,不打印分位数。如果任何非二进制变量的唯一值不超过20个,则会为其打印频率表。对于任何具有至少20个唯一值的变量,将打印最低和最高5个值。
输出的示例如下:
Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")]
2 Variables 5325006 Observations
----------------------------------------------------------------------------------
CHOLEST
n missing unique Mean .05 .10 .25 .50 .75 .90
4410307 914699 689 199.4 141 152 172 196 223 250
.95
268
lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234
----------------------------------------------------------------------------------
HDL
n missing unique Mean .05 .10 .25 .50 .75 .90
4410298 914708 258 54.2 32 36 43 52 63 75
.95
83
lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0
---------------------------------------------------------------------------------- 此外,关于获取直方图的问题,describe-object的Hmisc::latex方法将在上面演示的输出中生成交错的直方图。(您确实需要安装function LaTeX才能利用这一点。)我非常肯定你可以在Harrell的网站上找到输出的插图,或者使用他的书“回归建模策略”的Amazon "Look Inside“演示文稿。这本书有大量关于数据分析的有用材料。
https://stackoverflow.com/questions/7695619
复制相似问题