前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R 语言中的汇总统计:如何批量计算不同因素不同水平的平均值

R 语言中的汇总统计:如何批量计算不同因素不同水平的平均值

作者头像
邓飞
发布2019-07-16 16:07:03
2.9K0
发布2019-07-16 16:07:03
举报

有很多初学者遇到的问题,写出来,更好的自我总结,正所谓:“学然后知不足,教然后知困”。以输出(写博客)倒逼输入(学习),被动学习, kill time,是一个不错的方法。

参考

https://stackoverflow.com/questions/12478943/how-to-group-data-table-by-multiple-columns

实际工作中,我们需要对数据进行平均值计算,这里我比较了aggregatedata.table的方法,测试主要包括:

1,对数据yield计算平均值 2,计算N不同水平的平均值 3, 计算N和P不同水平的平均值

1. 常规方法aggregate

代码:

代码语言:javascript
复制
data(npk)
head(npk)

aggregate(yield~N,data=npk,FUN = mean)
aggregate(yield~N+P,data=npk,FUN = mean)

结果

代码语言:javascript
复制
> aggregate(yield~N,data=npk,FUN = mean)
  N    yield
1 0 52.06667
2 1 57.68333
> aggregate(yield~N+P,data=npk,FUN = mean)
  N P    yield
1 0 0 51.71667
2 1 0 59.21667
3 0 1 52.41667
4 1 1 56.15000

2. 使用data.table方法

代码:

代码语言:javascript
复制
data(npk)
head(npk)

library(data.table)
setDT(npk)

# 单个变量
npk[,mean(yield),by=N]

# 两个变量
npk[,mean(yield),by=c("N","P")]

# 两个变量的另一种写法
npk[,mean(yield),by=list(N,P)]
npk[,mean(yield),by=.(N,P)]

结果:

代码语言:javascript
复制
> # 单个变量
> npk[,mean(yield),by=N]
   N       V1
1: 0 52.06667
2: 1 57.68333
>
> # 两个变量
> npk[,mean(yield),by=c("N","P")]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
>
>
> # 两个变量的另一种写法
> npk[,mean(yield),by=list(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667
> npk[,mean(yield),by=.(N,P)]
   N P       V1
1: 0 1 52.41667
2: 1 1 56.15000
3: 0 0 51.71667
4: 1 0 59.21667

要点:

data.table速度更快,语法更简单。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档