我有一个非常大的数据集(265,874 x 30),有三个有意义的组:年龄类别(1-6岁)、日期(5479个这样)和地理位置(4个总数)。每条记录都包含一个选择,加上27个计数变量。我一直在尝试使用dplyr (v0.2)来完成这个任务,因为手动执行它最终会设置许多冗余的东西(或者使用循环来迭代分组选项,因为缺少一个优雅的解决方案)。我猜问题归结为:如何最好地使用do()函数和。运算符通过colSu
我试图使用带有自定义函数的summarize_at()对多个列进行总结。我坚持的部分是函数ssmd(),它是从group_by()创建的组中获取一个值向量,以及从这个组外部获取另一个值向量。在下面的示例中,x应该是Month设置的每一组值的向量(根据当前组的不同而变化),而y应该是Month == 5的固定值集。Month and the mea