在SQL中计算分组数据的LQ、UQ和IQR

、、、

我正在努力弄清楚如何在SQL中获得分组数据的上/下四分位数和IQR。假设我有一些类似于下面的数据： ID Data 1 37 1 1 1 77 2 15 3 12 3 54 3 10 我希望能够从每个ID的数据列中获得LQ

浏览 64提问于2021-08-26得票数 0

回答已采纳

1回答

一种消除阵列中极端离群点的算法

、

我有一个数组，用于D3图中的x轴，它会爆炸，因为图表的大小对于数组的大小来说太小了。我看了一下数据，数据中有极端的离群值。见下图。数据在0左右(不是完全为零，而是0.00972等等)。数据开始变得有趣的大约70，然后巨大的峰值约100。数据然后继续，然后在另一边类似的事情，大约200。有人能帮我解决一些离群点的问题吗？例如，给我95%或

浏览 4提问于2014-03-26得票数 6

回答已采纳

2回答

用data.table实现分组操作的性能

、

首先，我将描述我正在执行的任务。我必须反复计算一个分组和，通常在5到10倍之间。在每次迭代时，执行分组和的列中的值都会随着每次迭代而改变，但我所分组的列不会。下面是一个示例表，其中w、x和y共同构成分组，z是值将被求和的列。然而，据我所知，在data.table中没有一种方法能够提供比这更好<

浏览 11提问于2022-04-22得票数 6

回答已采纳

1回答

评估大小data.table比data.frame快的大小

、

有人能帮我评估使用data.table的数据帧的大小对搜索速度更快吗？在我的用例中，数据帧将是24,000行和560,000行。40行的块总是被挑出来供进一步使用。示例: DF是一个数据框架，有120行，7列(x1到x7)；"string“占据x1的前40行。 DF2是DF => 12万行的1000倍。对于DF data.table的大小比较慢，对

浏览 1提问于2013-11-24得票数 13

回答已采纳

1回答

从分组数据中删除异常值

、

我有一个数据框架如下：A 70B 75B 50C 60#Summary before removing outliers summaryBy(Value ~ ID, data = df, FUN

浏览 1提问于2016-04-26得票数 0

回答已采纳

1回答

根据特定于每个列和阈值( R)的几个列和阈值进行筛选

、

我有一份有600栏的数据。我希望根据变量对数据进行分组，并根据每个列和组的特定阈值对这些“感兴趣的列”(通常是列总数的一小部分)的n进行筛选。我已经开始用dplyr做这个了。这将计算我的阈值(每组和每列)，并将它们放入名为Petal.Length_threshold和Petal.Width_threshold的新列中。[2])

浏览 0提问于2018-10-05得票数 1

回答已采纳

1回答

如何合并分组聚合的df？

我对每个帐号的事务进行了分组和聚合(以计算每月的统计量)，现在我想将输出与帐号上的另一个数据帧合并。但是，帐号不再位于索引/列中。按账户和月度对交易进行分组，并执行汇总计算 df1 = df.groupby(['AcctNr','Month']).sum().groupby(level=0).agg({'Amount':

浏览 0提问于2019-05-29得票数 0

1回答

在data.table中使用分位函数

、、

我试图计算data.table中某些值的平均值。平均值应该在没有异常值的情况下计算，这意味着我必须先过滤数据。为了在我的数据中定义异常值，我使用了“默认框图”方法。(test$x)[1] -6113.136test <

浏览 2提问于2015-08-05得票数 2

回答已采纳

1回答

基因组覆盖作为滑动窗口

、、

我使用bwa mem算法将读取映射到程序集，并使用samtools depth提取每个基的读取数(= samtools depth)。(因为它是多个contig文件，这个ID会更改)-位置(基本)-映射的读取数(覆盖率)。现在，我想计算滑动窗口中的覆盖率(第三列)；窗口大小为3，幻灯片为2，作为平均每个连体(第一列)。1091900001

浏览 2提问于2018-02-10得票数 1

回答已采纳

2回答

将RSQLite查询结果保存到csv中，而不将其读入R中

、、

我正在使用一个大型SQLite数据库，并且使用RSQLite和Rstudio同时运行许多不同的查询。很多时候，查询的结果相当大，我不想浪费资源，将它们读入R，然后将它们保存到CSV。我更愿意让数据库本身来管理这个问题。然而，这是行不通的，我不知道还能尝试什么。<- dbConnect(RSQLite::SQLite(), "test.sqlite") dbListTables(

浏览 5提问于2020-11-02得票数 4

回答已采纳

2回答

透明度较高的钻石的平均透明度价格较低

、

我一直在努力弄明白，为什么我得到的钻石平均价格更低，透明度更高？透明度更高的钻石不是更贵吗？有人能从基础数据科学的层面向我解释一下吗？ summarise( mean = mean(price), uq = quantile(price, 0.75)

浏览 1提问于2018-05-27得票数 1

回答已采纳

1回答

如何提取前n行，并使用子集计算每个组函数，然后计算不同组的平均值？

、

，其中函数的输出依赖于子集的数据帧。然后，我想用一个不同的分组变量对结果data.table进行分组，并取一个简单的均值。我是否要先在子集的行上按group1计算函数，然后列出结果，然后按group2计算均值？或者我想先rbindlist我的整个数据，预先选择子集的行，然后用group1计算我的函数，然后再用group2<em

浏览 2提问于2018-10-23得票数 5

1回答

使用分组/切割列计算geom_boxplot IQR

、、、

我想使用geom_boxplot()在我的数据上显示IQR。如果我有一个按数据块计算stat分组变量，我需要用ddply预先计算一个包含所有数据(IQR等)的数据帧。对于每个数据块？或者，在geom_boxplot()自动显示统计信息之前，我可以使用一些group=指令强制计算所有统计信息吗？我的数据

浏览 0提问于2012-12-04得票数 0

回答已采纳

2回答

如何编写输入为向量而输出为基于分位数信息的字符向量的函数

、、

我正在写一个函数，它的输入是向量，输出是三个级别的字符向量:低于Avg，Avg，高于Avg。我希望字符向量是根据给出的向量的第1和第3分位数计算出来的。当我调用我的函数时，只在Avg下面返回，这是我理解它为什么返回的，但不知道如何修复。理想情况下，我想要一个新的向量，使Avg以下的值对应于第1分位数以下的值，Avg以上的值对应于3分位数以上的值，

浏览 0提问于2018-11-21得票数 0

回答已采纳

1回答

分类数据的四分位数范围

、、、、

我被要求用IQR和中位数来报告我的结果的描述性统计数据，但是我不知道我怎么能做到！我知道逻辑，但数据是连续的。有人能解释如何在分类变量上计算吗？在R里怎么做呢？

浏览 8提问于2022-01-19得票数 0

回答已采纳

3回答

在大型数据帧上，Group_by和变异速度较慢

、、、

我正在使用大型(至少800万行) dataframes，并希望根据几个分组变量和rmultinom进行一些基本计算。就我的代码而言，完成计算至少需要~1秒，这不是问题，但我需要做数千次，所以我真的想加快速度。library(tidyverse) # cre

浏览 0提问于2018-10-09得票数 8

2回答

用pply替代替换循环*

、

我试图通过用tapply ()替换一些查找循环来加速我的代码，我偶然发现了这个代码片段： DF<-data.frame(id=c(rep("A", 5),rep("B", 7),rep("C", 9))或者其他加速的方法？

浏览 1提问于2014-03-09得票数 1

回答已采纳

1回答

从data.table和data.frame对象中获取单个元素所需的时间

、、、

在我的工作中，我经常使用几个表(客户详细信息、交易记录等)。由于它们中的一些非常大(数百万行)，我最近切换到了data.table包(感谢马修)。但是，它们中的一些非常小(几百行和4/5列)，并且被多次调用。因此，我开始考虑在检索数据时的[.data.table开销，而不是像?set中已经清楚描述的那样设置()值，其中，无论表的大小如何

浏览 22提问于2013-06-02得票数 17

回答已采纳

2回答

和或矩阵乘法更快吗？

、、、、

我有一个非常简单的问题，是用sum或矩阵乘法来加速和一个大向量吗？(X%*%y)rep(1, d)%*%(X%*%y)testSum <- function(d, its){ y <- rnorm(

浏览 3提问于2015-06-23得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

一种消除阵列中极端离群点的算法

用data.table实现分组操作的性能

评估大小data.table比data.frame快的大小

从分组数据中删除异常值

根据特定于每个列和阈值( R)的几个列和阈值进行筛选

如何合并分组聚合的df？

在data.table中使用分位函数

基因组覆盖作为滑动窗口

将RSQLite查询结果保存到csv中，而不将其读入R中

透明度较高的钻石的平均透明度价格较低

如何提取前n行，并使用子集计算每个组函数，然后计算不同组的平均值？

使用分组/切割列计算geom_boxplot IQR

如何编写输入为向量而输出为基于分位数信息的字符向量的函数

分类数据的四分位数范围

在大型数据帧上，Group_by和变异速度较慢

用pply替代替换循环*

从data.table和data.frame对象中获取单个元素所需的时间

和或矩阵乘法更快吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐