rm(list=ls())
gc()
2、索引切片聚合
data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...mydata[carrier %in% c("AA","AS"),.N]
[1] 26876
.N是一个计数函数,相当于plyr中的count,或者基础函数中的length。...当整列和聚合的单值同时输出时,可以支持自动补齐操作。
当聚合函数与data.table中的分组参数一起使用时,data.table的真正威力才逐渐显露。
mydata[,....多分组聚合。
mydata[,.(sum(dep_delay),mean(arr_delay)),by = .(carrier,origin)]
?
多分组计数。
mydata[,.N,by = ....以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑,其实是在按照carrier,origin,dest三个维度分组的基础上,对每个子块特定列进行均值运算。