首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R中的数据字典打包

R中的数据字典打包
EN

Stack Overflow用户
提问于 2011-10-08 16:18:25
回答 1查看 2.9K关注 0票数 7

我正在考虑用R编写一个数据字典函数,它以数据帧为参数,将执行以下操作:

1)创建文本文件,该文件:

a.通过按类别列出变量的数量、观察值的数量、完整观察值的数量…来汇总数据帧等

b.对于每个变量,总结关于该变量的关键事实:均值、最小值、最大值、模式、丢失观察值的数量…等

2)创建包含每个数值或整数变量的直方图和每个属性变量的条形图的pdf。

其基本思想是创建具有一个函数的数据框的数据字典。

我的问题是:有没有包已经做到了这一点?如果不是,人们会认为这是一个有用的函数吗?谢谢

EN

回答 1

Stack Overflow用户

发布于 2011-10-08 16:36:30

在不同的包中有各种describe函数。我最熟悉的是Hmisc::describe。以下是其帮助页面中的描述:

此函数确定变量是否为字符、因子、类别、二进制、离散数字和连续数字,并根据每个变量打印简明的统计摘要。如果数值变量具有<= 10个唯一值,则将其视为离散变量。在这种情况下,不打印分位数。如果任何非二进制变量的唯一值不超过20个,则会为其打印频率表。对于任何具有至少20个唯一值的变量,将打印最低和最高5个值。

输出的示例如下:

代码语言:javascript
复制
Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")] 

 2  Variables      5325006  Observations
----------------------------------------------------------------------------------
CHOLEST 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410307  914699     689   199.4     141     152     172     196     223     250 
    .95 
    268 

lowest :    0   10   19   20   31, highest: 1102 1204 1213 1219 1234 
----------------------------------------------------------------------------------
HDL 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410298  914708     258    54.2      32      36      43      52      63      75 
    .95 
     83 

lowest : -11.0   0.0   0.2   1.0   2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

此外,关于获取直方图的问题,describe-object的Hmisc::latex方法将在上面演示的输出中生成交错的直方图。(您确实需要安装function LaTeX才能利用这一点。)我非常肯定你可以在Harrell的网站上找到输出的插图,或者使用他的书“回归建模策略”的Amazon "Look Inside“演示文稿。这本书有大量关于数据分析的有用材料。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7695619

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档