我有一个数据集,其中包含每支球队17年来每个篮球运动员的统计数据。在R中,我试图通过使用for循环将这些球员级别的观察转换为团队级别的观察(每年),该循环遍历年份和球队,然后汇总前三名得分手的个人统计数据(得分、助攻、篮板等)。你建议我如何继续?(在下面你会发现我目前的尝试,它只从数据集的最后一支球队和年份中提取观察数据,而不能从前三名中提取其他统计数据,如助攻和篮板数)。
for (year in 2000:2017) {
for (team in teams) {
ts3_points =top_n(select(filter(bball, Tm == team & Yea
所以问题来了:我想在R代码中使用for循环来汇总不同的列。
作为一个例子,下面是它可能的样子:
all.columns<-c("column4","column5","column6","column7")
for (i in 1:4) {
df%>%
group_by(column3)%>%
summarise(Mean=mean(all.columns[i]),
Max=max(all.columns[i]))
}
其中df是一个数据框,column3可以是一个group by
我目前在R中有一个名为DDS_LS的数据帧。目前,每一行都是按事务处理的,但我需要按Customer_ID汇总事务。
sqldf("SELECT Customer_ID, count(distinct Lifestyle), count(distinct Price_Point),
cumsum(Delivered_Sales), cumsum(QTY_sold)
FROM DDS_LS GROUP BY Customer_ID")
然后我得到以下错误:
Error in rsqlite_send_query(conn@ptr, stateme
我想通过一个变量对我的数据框进行分组,汇总另一个变量,但保留所有其他相关列。 在Applying group_by and summarise on data while keeping all the columns' info中,公认的答案是使用filter()或slice(),如果答案已经存在于数据中(即min,max),则可以很好地工作,但如果您想要使用生成新答案(即sum,mean)的函数,则此方法不起作用。 在Applying group_by and summarise(sum) but keep columns with non-relevant conflictin
我希望使用R和package dplyr来准备或总结一列值,使用带有用户定义函数的汇总(在dplyr中),或者手工定义它。但是,数据没有在指定的组上聚合。有关详情,请参阅以下短文。提供了所需的结果。
library(dplyr)
ver="dplyr version 1.0.5"
#create user defined function intended for summarise()
myfun=function(values){
values^2}
进口数据
df=data.table(
grp=c("x","x","y&
我对这个相当简单的问题表示歉意,因为尽管我在计量经济学/回归分析方面有一些R方面的经验,但我还是设法跳过学习如何在R中创建基本的汇总统计数据,如何生成一个输出来计算该特定数据的观察数。
对于此数据,如何计算特定列的每种类型的不同数目(即:“侧”列中有多少个L和Rs )?如果“侧”列等于“L”(例如,当'Side‘等于'L’时,绿色、红色或蓝色的百分比是多少?
Side State Color Type
L O Green B
R C Red Q
R O
我希望聚合我的数据库,包括分类变量,以便每行表示来自原始数据的多个行(例如,基于学生ID)。每个列都需要保存原始数据中最常见的值(每个聚合ID)。示例:我希望按学生汇总数据,并查看最常见的分类变量级别--例如:
student class
a h (being h the dominant level for the variable "class"
我在R工作室工作