我希望聚合我的数据库,包括分类变量,以便每行表示来自原始数据的多个行(例如,基于学生ID)。每个列都需要保存原始数据中最常见的值(每个聚合ID)。示例:我希望按学生汇总数据,并查看最常见的分类变量级别--例如:
student class
a h (being h the dominant level for the variable "class"
我在R工作室工作
我希望使用R和package dplyr来准备或总结一列值,使用带有用户定义函数的汇总(在dplyr中),或者手工定义它。但是,数据没有在指定的组上聚合。有关详情,请参阅以下短文。提供了所需的结果。
library(dplyr)
ver="dplyr version 1.0.5"
#create user defined function intended for summarise()
myfun=function(values){
values^2}
进口数据
df=data.table(
grp=c("x","x","y&
我试图生成一个汇总表,按组显示每个变量的范围。以下是一些示例数据:
df <- data.frame(group=c("a","a","b","b","c","c"), var1=c(1:6), var2=c(7:12))
group var1 var2
1 a 1 7
2 a 2 8
3 b 3 9
4 b 4 10
5 c 5 11
6 c 6 12
我使用了这样的聚合函
SELECT strftime('%W', 'Week'), sum(income) FROM tableOne GROUP BY Week;
日期的格式是一个简单的日期: YYYY-MM-DD
问题:运行时,未提供Week列的值。有什么建议吗?
表中有数据,运行查询时,收入按week列中的日期汇总。问题是,此列包含的日期可以是一周中的任何一天,并且通常是同一周中的多个不同日期。我需要按周汇总收入。
我有一个数据帧,其中第一列包含活动的名称。我需要汇总所有活动名称包含特定字符串的行(它可以出现在名称中的不同位置,即有时出现在开头,有时出现在结尾)。数据帧如下所示:
Campaign Impressions
1 Local display 1661246
2 Local text 1029724
3 National display 325832
4 National Audio 498900
5 Audio local 597339
6 TV Regional 59
我正在尝试编写一个函数来创建汇总表。我有兴趣总结的变量可能会改变,因此,我想把它放在一个函数中。我学习了关于NSE的例子,但由于某些原因,它并不适用于我。以下是功能:
print(agegroup) # this is a string
table_summary <- function (data, group_by1){
quo_group_by1 = quo(group_by1)
print(quo_group_by1)
data %>%
dplyr::group_by(!! quo_group_by1) %>%
dplyr::summarise
我正在使用以下数据框架: Layer Grade Players NYAL 27
Top A NY 08; NY 27; NY 80 1
Bottom D MA 27; MA 45; MA 65 0
Middle B NY 09; MA 48; NY 66 0
Bottom C NY 06; NY 27; NY 80 1
... 我一直在
我按每个地区最高的价格汇总了一张区域表。因此,区域只上市一次,按每个区域最高的价格计算。
MaxPriceByRegion<- data.frame(aggregate(Price ~ Region, data = Region_Price, max))
结果是一个很好的数据框架,显示区域和价格。
Region Price
WI 2000
IL 10000
ND 4000
AK 20000
但是,当我尝试按价格对数据进行排序时,我会遇到一些问题。
我用:
Top3 <- MaxPriceByRegion(he
假设我有如下数据
date value location
1/1 10 A
1/2 15 A
1/3 20 A
2/1 15 A
2/2 10 A
2/3 5 A
2/4 12 B
2/5 15 B
2/6 5 B
2/7 20 A
我想按位置汇总1/31之后所有超过10的值的计数。因此,我的输出将为位置A提供3,为位置B提供2。您知道如何在R中实现这一点吗?
我目前在R中有一个名为DDS_LS的数据帧。目前,每一行都是按事务处理的,但我需要按Customer_ID汇总事务。
sqldf("SELECT Customer_ID, count(distinct Lifestyle), count(distinct Price_Point),
cumsum(Delivered_Sales), cumsum(QTY_sold)
FROM DDS_LS GROUP BY Customer_ID")
然后我得到以下错误:
Error in rsqlite_send_query(conn@ptr, stateme