Group_By和Sum()给出了相当出乎意料的结果 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python中的and和or，结果让人出乎意料之外

一、前言前几天在Python最强王者交流群有个叫【Chloe】的粉丝问了一个Python基础的问题，关于and和or，这里拿出来给大家分享下，一起学习下。...二、解决过程这里【杰】给出了解答，其实Python中，除括号外，and优先级较高，那么这里的话【瑜亮老师】也给出了解答，确实没有括号，表达式从左往右运算，and比or优先级高，先算and，再算or。...首先计算and对应的输出是False，之后再和or一起计算，得到输出是True。别走，这个题目【瑜亮老师】还有拓展，还有新知识呢！...and 和 or 还有个很有意思的用法： print(1 and '字符串') # 输出：字符串 # 原理：x and y 的值只可能是x或y。...这篇文章主要分享了Python基础中的and和or的优先级问题，针对该问题给出了具体的解析和代码演示，帮助粉丝顺利解决了问题，还额外做了一些知识拓展，学到很多东西。

3213 0

MySQL的行转列

1 case when操作方法要实现上面的功能，我们需要进行分析，首先，我们需要生成三个列，分别是数学，语文和英语，然后给每个列中的值填入对应的数据。...，看看和最终结果的差距： +-----------+--------+--------+--------+ | user_name | 数学 | 语文 | 英语 | +-----------...，自然而然我们想到了group_by(user_name)的操作，而group_by操作需要和一些聚合函数(MAX,MIN,AVG,SUM，COUNT等)进行搭配。...由于每条记录中只包含当前学科的成绩，其他学科的成绩为0，所以我们使用MAX函数和SUM函数的结果是相同的，但是不能使用AVG函数和MIN函数，这应该很好理解吧。...SUM的结果是一样的，但是使用MIN作为聚合函数，会导致最终输出的结果都是0，因为每次都选的是该user_name指定学科的最小的值，也就是0。

13.2K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

R数据科学|3.7内容介绍及习题解答

3.7 分组新变量（和筛选器）虽然与summarize()函数结合起来使用是最有效的，但分组也可以与mutate()和filter()函数结合，以完成非常便捷的操作。...5 2013 1 1 FLL 19 9.38e-05 #> 6 2013 1 1 ORD 8 2.83e-05 #> # ... with 1.311e+05 more rows 【注】：分组筛选器的作用相当于分组新变量加上未分组筛选器...一般不使用分组筛选器，除非是为了完成快速、粗略的数据处理，否则很难检查数据处理的结果是否正确。在分组新变量和筛选器中最常使用的函数称为窗口函数（与用于统计的摘要函数相对）。...你可以在相应的使用指南中学习到更多关于窗口函数的知识：vignette("windowfunctions")。习题解答问题一查看常用的新变量函数和筛选函数的列表。...= sum(arr_delay)) %>% group_by(dest) %>% mutate( arr_delay_prop = arr_delay / sum(arr_delay)

4.2K3 2

巧用R语言中各类聚合窗口函数

、cumsum函数 R语言中的sum和cumsum聚合函数与sql中的sum聚合函数相同，对分组求和和累计求和。...下面举例说明一下，计算每位客户消费总额以及按照购买时间的顺序累计消费总额：消费总额： data1 %>% group_by(user_no) %>% mutate(sum_amt =...下图是sql中的结果： ?...2 min、cummin函数 R语言中的min、cummin函数与sql中的min函数相同，计算组内最小值和累计最小值：每位客户的历史上最小消费金额： data1 %>% group_by(user_no...总结本节介绍了R语言中的聚合窗口函数，当累计求和和累计平均的时候，与sql中结果有点差异：sql中相同记录的累计值相同，而R语言中的累计值不在相同。

2.3K2 0

单细胞数据复现-肺癌文章代码复现8

，然后选择出了比较重要的三个亚群，然后对亚群进行细分，然后文章开始对每个亚群的相关性的细胞进行分析。...分组的结果进行提取 epi_tumor <- subset(subset(epi_anno, subset = cluster_type == "Tumor"), subset = tissue_type...== "Tumor") ##随后对提取出来的结果进行均一化 epi_tumor <- ScaleData(epi_tumor) ##对tumor的结果进行pca处理，将tumor赋予给epi_pca...") ##前期在保存的时候已经赋予了多个细胞类型的水平，然后在meta.data中进行提取 ##先按照要求的因子水平进行排序 imm_anno@meta.data$cell_type_imm % mutate(n_rel = n/sum(n)) ##pivot_wider将结果中得长表变成宽表 myelo_counts_rel <- myelo_counts_rel

5972 0

R语言数据处理：飞机航行距离与到达延误时间有什么关系??

3.1 数据分组 dplyr包里的分组是由group_by()函数实现的，脚本输入代码： by_dest group_by(myFlights, destination) class(by_dest...拿上述的代码进行举例，在没用管道之前，代码是这样的： by_dest group_by(myFlights, destination)#按目的地分组 delay_sum sum , count > 20)#剔除噪音数据 delay_sum#显示列表用了管道“%>%”，代码是这样的： delay_sum % #将右侧航行数据赋值给左侧...delay_sum group_by(destination) %>% #对delay_sum进行分组 summarise( count = n(), dist = mean(distance, na.rm...由上图，我们就可以初步分析航程和延误时间并非线性关系，至于这种非线性关系该怎么解释，仍需进一步统计调查分析。

3.1K4 0

R数据科学|3.6习题解答

na.rm = TRUE)) %>% arrange(desc(arr_delay)) 通过比较每个航空公司的平均延误和同一航线内航班的平均延误(从同一出发地到同一目的地的航班)，你可以弄清机场和航空公司的影响...比较承运人之间和每条航线内的延误，可以理清承运人和机场的影响。更好的分析方法是将一家航空公司航班的平均延误与同一航线内所有其他航空公司航班的平均延误进行比较。...is.na(arr_delay)) %>% group_by(origin, dest, carrier) %>% summarise( arr_delay = sum(arr_delay...), flights = n() ) %>% group_by(origin, dest) %>% mutate( arr_delay_total = sum(arr_delay...解答排序参数，以对结果进行排序。想对结果排序的时候都可以使用sort。

3.8K3 0

「R」数据操作（八）：dplyr 的 do, do, do

和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...，该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...假如我们需要分析toy_tests数据，要对每种产品的质量和耐久性进行汇总。如果只需要样本数最多的3个测试记录，并且每个产品的质量和耐久性是经样本数加权的平均数，下面是做法。...( quality = sum(quality * sample) / sum(sample), durability = sum(durability * sample...> #> 1 T01 9.32 9.38 #> 2 T02 9.04 8.34 为了查看中间结果，可以运行do()之前的代码： toy_tests %>%

1.7K3 1

dplyr中的行操作

简介 library(dplyr, warn.conflicts = FALSE) “rowwise()和group_by()很像，本身不做任何操作，但是使用了rowwise之后，再和mutate()...（只是一个例子），不使用rowwise()函数，得到的结果是所有数据的均值，很明显不是想要的： df %>% mutate(m = mean(c(x, y, z))) ## # A tibble: 2...2 × 1 ## m ## ## 1 3 ## 2 4 根据name这一列按照行计算均值： df %>% rowwise(name) %>% # 相当于按照...: name [2] ## name m ## ## 1 Mara 3 ## 2 Hadley 4 rowwise()可以看做是group_by...rf % rowwise(id) 计算加和： rf %>% mutate(total = sum(c(w, x, y, z))) ## # A tibble: 6 × 6 ## # Rowwise

1.3K3 0

「R」数据操作（七）：dplyr 操作变量与汇总

= 排序rank 存在很多rank函数，但我们从min_rank()的使用开始，它可以实现最常见的rank（例如第一、第二、第三、第四），使用desc()进行辅助可以给最大值最小的rank。...这个代码写的有点令人沮丧，尽管我们不关心中间变量（临时变量），但我们却不得不创造这些中间变量存储结果数据框。命名是一件非常困难的事情，它会降低我们分析的速度。...如果输入不去除缺失值，结果必然是缺失值。幸运的是，所有的聚集函数都有na.rm参数，它可以在计算之前移除缺失值。...有时候整合聚集函数和逻辑操作符是非常有用的： not_cancelled %>% group_by(year, month, day) %>% summarize( #...这让sum()与mean()变得非常有用，sum(x)可以计算x中TRUE的数目，mean()可以计算比例： # 多少航班在5点前离开 not_cancelled %>% group_by(year

2.6K2 0

「R」dplyr 行式计算

，它计算所有行的 x, y 和 z 的均值。...这可能会让人感到困惑，但我们确信这是最差的解决方案，特别是在错误消息中给出了提示。...group_by() 输出有一点不同:我们明显地改变了数据的结构。...rowwise()不仅适用于返回长度为1的向量的函数（又名总结函数）；如果结果是列表，它可以与任何函数一起工作。...作为替代方案，我们建议使用 purrr 的 map() 函数执行逐行操作。但是，这很有挑战性，因为您需要根据变化的参数数量和结果类型来选择映射函数，这需要相当多的 purrr 函数知识。

6.2K2 0

生信代码：数据处理（ tidyverse包）

包，《R语言实战》并未涉及，这也导致R语言的学习难度增加，今天我们给大家引入tidyverse包的学习。...x2=c(3,4,2,8)) ##传统方法 mydata$sum <- mydata$x1+mydata$x2 mydata <-transform(mydata,sumx=x1+x2) attach...(mydata) sum <- x1+x2 detach(mydata) ##dplyr mydata %>% mutate(sumx=x1+x2, meanx...df %>% select(start_with("n")) 3 filter() filter()是对数据行方向的选择和筛选，选出符合我们条件的某些行： df %>% filter( type==...() group_by可以对原数据框进行分组计算，例如对于我们本文中的数据框，我们如果对个人或者科目感兴趣的话，可以使用group_by（name或者type），然后利用summarize函数就可以求出分类之后的各个统计值

2.1K1 0

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

一 summarize汇总汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用 1.1 summarise完成指定变量的汇总统计均值，标准差，最小值，个数和逻辑值...分组汇总 group_by() 和 summarise() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要 2.1 按照Species分组，变量汇总 iris %>%...； sum(!...iris %>% group_by(Species) %>% summarise( n_pet_len = n(), noNA_n_pet_len = sum...这使得 sum() 和 mean() 非常适用于逻辑值：sum(x) 可以找出 x 中 TRUE 的数量， mean(x) 则可以找出比例 . iris %>% group_by(Species

2.5K6 0

R支持同名函数，小心李逵变李鬼

程序出乎意料，怎么办？今天在星球圈里收到提问： img 我对ddply()这个函数是不熟悉的，只知道hadley一个过时的包plyr里有一系列这样的函数。所以我首先想到的是这位朋友用错了。...不过我马上就排除了，这种问题是非常容易发现和处理的。因此还是得动手实际检验一下这个问题在我的电脑上是否可以重复。...难道是调用rescale()这个函数出了问题？？...-49-AAQV 1.10041358 0.124817806 ## 43 TNFSF11 TCGA-49-AAQV 0.72236264 0.081405517 问题依旧，数据肯定在rescale的时候出了问题...我debug()进去一看，发现全部的数据，而不是单独一个样本的数据作为输入！在确定group_by()函数没有问题后，终于在mutate()上发现了端倪。

6311 0

django model 条件过滤

django.db.models import Avg >>> Book.objects.all().aggregate(Avg('price')) {'price__avg': 34.35} #1.2 Sum...求和 >>> from django.db.models import Sum >>> Author.objects.aggregate(total_pages=Sum('book__pages'))...，相当于count(). annotate 对于 queryset 中的每个值在指定的属性上进行汇总,相当于group_by >>> from django.db.models import Count...queryset对象,queryset对象中的每一个obj新增了一个属性(这里新增了num_books属性),这个属性的值就是这个对象Count(‘book’)的结果,即,每个obj对象的num_books...__month 日期字段的月份 __day 日期字段的日 __isnull=True/False

6792 0

dpois函数_frequency函数

()和summarize()是同时使用最常用的工具之一：分组概括。...(sum(!...均方根偏差或标准差sd(x)是离散的标准度量。四分位数范围IQR(x)和中位数绝对偏差mad(x)是稳健的等价物，如果有异常值可能会更有用。...例如，我们可以找到每天的第一次和最后一次出发： not_cancelled %>% group_by(year, month, day) %>% summarise( first_dep...这使得sum()和mean()非常有用：sum(x)给出x中的TRUE数，而mean(x)给出比例。 # How many flights left before 5am?

1.8K1 0

R语言进阶笔记4 | dplyr 汇总统计

然后使用apply函数，对数据框的列进行操作最后返回汇总统计的结果该函数的对象为一个由变量组成的数据框，数据类型都要是数值 3.2 函数测试 > huizong(dat) Max...y1,y2,y3,y4,y5的汇总统计结果，所以将其转化为数据，使用tidyr中的pivot_longer进行转化： > d1 = pivot_longer(dat,1:5,names_to = "Trait...函数，和summarise函数，进行汇总统计： d1 %>% group_by(Trait) %>% summarise(Max = max(values),...函数进行分组使用summarise进行汇总统计，里面是不同的汇总统计参数 5.4 查看结果 > d1 %>% group_by(Trait) %>% summarise(Max = max(values...(Min = min, Mean = mean, Max = max, Sd = sd,range = sum)) 「结果如下：」 > d1 %>% + group_by(Trait) %>%

1.1K1 0

能联系上文，能看懂错别字。【教ChatGPT学SAS 3. T检验与方差分析】

首先，问问ChatGPT，T检验和方差分析的区别。答复非常全面！最关键的一点也有提到，T检验只能用于两组，方差分析用于三组及三组以上。这段代码是最基本的操作。...能够直接把结果打到SAS的html窗口上。这里，我不小心打了两个错别字，“T检验”打成了“T建议”。出乎意料的是，AI竟然还能识别，并且给出了“T检验”相关代码和答复，有点太出乎意料了！...我想让她同时进行方差齐性检验，奈何，我问了几次，AI给的代码，都是无法运行的，有点无奈。所以，我直接把正确的代码贴给她吧。这里有点出乎意料了。...整个代码，只需要将选择的“SS”改成”SS3”就可以了。毕竟在刚才T检验的时候，折腾了那么久，现在方差分析却能一次就出结果，有点出乎意料。总的来说，用SAS做统计分析，都还算比较简单。...只需要找到合适的PROC步骤，加上合适的代码，就能把结果输出到SAS数据集中。AI学起来还是比较快的。本公众号正式命名为“SAS编程未来”，将用来分享SAS编程的未来趋势或者疑难杂症。

7711 0

tidyverse evaluation

# 但是R语言函数的传递和python是不一样的 # 因此，在tidyverse中，对这种情况进行了解决 # !!...5.01 ## 2 versicolor 5.94 ## 3 virginica 6.59 # 上述函数实现了对字符和函数名的调用...## 使用大括号 ## 大括号同时包含的转换表达式和求解表达式 group_mean <- function(data, var_group,varname, var_mean) { data %...还可以这样写函数 # across函数支持对队列执行相同的操作 sum_group_vars <- function(data, group_vars..., sum_vars){ data %>% group_by(across({{ group_vars }})) %>% summarise

6073 0

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

，后续的参数是条件，这些条件是需要同时满足的，另外，条件中取缺失值的观测自动放弃，这一点与直接在数据框的行下标中用逻辑下标有所不同，逻辑下标中有缺失值会在结果中产生缺失值。...如sum, mean, median, min, max。...比如，需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然，如果有许多变量要计算不止一个统计量，就需要人为地将每一个变量的每一个统计量单独命名。...6.7 0.424 3 virginica 6.05 0.354 3.3 交叉分类我们可以输入多行给group_by...比如： CO2 %>% group_by(Type, Plant) %>% summarise(freq=n()) %>% summarise(ntotal=sum(freq)) `summarise

10.9K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭