使用sparklyr或dplyr获取组合组中的成员计数

、、、、

我有一个spark数据帧，我正在使用sparklyr操作，它看起来如下所示： input_data <- data.frame(id = c(10,10,10,20,20,30,30,40,40,40,50,60,70我想要聚合数据，这样我就可以对每个组合的"events“(其中event == 1 )和"non_events”(其中event == 0)的数量进行计数，这样最终的输出就会如下所示： data.frame因此，例如，没有A和B是相同ID的

浏览 24提问于2021-08-30得票数 0

回答已采纳

1回答

spark_read_csv的Sparklyr维度问题: NA结果

、、

当我使用spark_read_csv在Spark环境中打开一个dataset (.csv)并询问相关tibble对象的尺寸时，结果显示的不是行数，而是NA。打开csv文件时缺少什么？以下是我得到的结果： data = spark_read_csv( header =

浏览 13提问于2019-02-08得票数 1

回答已采纳

2回答

使用sparklyr对大数据进行滚动应用

、、、、

我想要为大约2250万个观察值的数据集估计滚动风险值，因此我想使用sparklyr进行快速计算。下面是我所做的(使用示例数据库)：library(reshape2)datadplyr和PerformanceAnalytics包来估算VaR：var <- lmanagers %&

浏览 0提问于2017-09-03得票数 9

2回答

从列表中创建一个因素

我正在重做一些旧的大学论文，把它从Stata转换成R，学习R，并试图找到一种方法来获取一个国家变量，并创建一个新的变量，其中包含了经合组织成员或非成员国的因素。我试着用if- all语句从dplyr中突变，但它似乎不起作用，而我所做的所有谷歌搜索似乎只是显示出释放了现有的因素等等。ifelse(country_name = c("Australia", "Austria

浏览 0提问于2019-08-07得票数 2

回答已采纳

2回答

在使用sparklyr调用collect_list时根据另一个变量保留顺序

、

这个问题本质上是对的重复，除了我在R中工作之外，这个问题的解决方案看起来很可靠，但我还没有找到如何在窗口函数上以同样的方式在sparklyr中应用collect_list。期望产出：userid | cities 1 | A, B, C问题是，我尝试使用的每一种方法都会产生一些用户对5000名用户的测试<em

浏览 2提问于2019-05-10得票数 0

回答已采纳

1回答

使用sparklyr返回逻辑计划

、、、

我们正在尝试获取逻辑计划(不要与物理计划混淆)，该计划是由Spark为给定查询生成的。根据Spark ，您应该能够使用scala命令检索它：或者在sparklyr中使用示例代码：sc <- spark_connectiris_sdf <- copy_to(sc, iris) spark_dataframe %>% invoke(&

浏览 3提问于2019-11-05得票数 1

回答已采纳

1回答

Sparklyr中split-apply-combine策略错误处理

、、

我有一个名为"userid“的Spark DataFrame，我正在使用sparklyr对其进行操作。每个userid可以有从一行数据到几百行数据的任何地方。我将一个函数应用于每个userid组，该函数根据特定的事件条件压缩它所包含的行数。. %>% # using dplyr::filter and dplyr::mutate ungroup() 我想把这个函数包装在一个错误处理程序中，比如

浏览 8提问于2019-06-04得票数 0

回答已采纳

1回答

斯帕克利:如何在不同的群体中获得一个均衡的样本

、、

我想从我的星火DataFrame的sparklyr中的每一个类中抽取n行。我知道dplyr::sample_n函数不能用于这个()，所以我使用了sparklyr::sdf_sample()函数。这方面的问题是，我不能按组进行抽样，即从每个类获得10个观测值，我只能指定要采样的整个数据集的分数。我可以在循环中对每个组单独使用sdf_sample(

浏览 1提问于2020-01-13得票数 3

回答已采纳

2回答

使用summarize_all()查找sparklyr数据的中位数

、、、

我正在尝试获取我使用sparklyr提取的r中数据的汇总统计信息，包括平均值和中位数。我可以通过在dplyr::summarize()步骤中手动输入所有内容来获取所有统计数据，但是我想知道是否有方法可以使用summarize_all()语句来实现这一点。这将为我的数据获取count、mean、min、max (vars是列名的向量) test&l

浏览 8提问于2020-09-02得票数 0

回答已采纳

2回答

在Databricks中使用sparklyr注册临时表

、、、

我的同事在Databricks中使用pyspark，通常的步骤是使用data = spark.read.format('delta').parquet('parquet_table').select('data.cache()作为一名R用户，我正在寻找sparklyr中的registerTempTable等价物。我通常会这样做 data

浏览 1提问于2020-09-29得票数 1

2回答

使用筛选器或从火花中选择后的数据示例

、、、

我需要分析大量的数据，所以我使用sparklyr来快速管理它。我的目标是获取数据的样本，但在需要选择感兴趣的变量和筛选某些列的值之前。我尝试选择和/或过滤数据，然后使用函数sample_n，但它总是给出以下错误：以下是这种行为的

浏览 3提问于2018-02-08得票数 1

回答已采纳

2回答

优化复杂的分组变异依赖行(查找？)

、

对于我现在越来越频繁地遇到(变体)的问题，我有一个有点慢的解决方案。我怀疑有一种更有效的方法，并会喜欢一些指点。下面我创建的玩具示例不需要那么长时间，但是当我在实际数据上使用几个这样的查找函数时，它可能会花费更长的时间。基本上，目的是按组计算满足若干条件的兄弟姐妹。因为这取决于每个人活着的时间，所以对每个兄弟姐妹来说都不是一样的结果。library(dplyr) # sample

浏览 3提问于2016-11-08得票数 0

1回答

Powershell : Get-AzureADGroupMember所有嵌套组的成员

、、

我有一个天蓝色的广告组，是由其他三个组组成。我可以调用什么方法呢？ 

浏览 13提问于2021-08-05得票数 0

2回答

使用Graph只从AAD组中获取“User”类型成员的计数

、、、

是否有图API从AAD组中获取特定类型成员的计数？例如，考虑以下AAD组：此组包含3个类型为“User”的成员。是否有一个图API只得到这个计数，即3？或者，我是否应该从组中获取所有成员并进行一些筛选，以获得“User”类型的成员，如下所示，并找出计数： var

浏览 18提问于2022-09-25得票数 1

2回答

固定还原collectionGroup查询返回空结果

、、、

我的Firestore数据库目前是这样设置的：组有成员(用户列表)，我想查询和查找所有组的特定用户。我发现collectionGroup查询应该是解决方案，下面是我的查询代码。snapshot = snapshot else { return } }) } match &

浏览 0提问于2019-06-14得票数 2

2回答

使用LINQ通过一次查询获取外键表

、、

我有以下两个表- Id- Id- Name有没有办法编写一个LINQ查询，在单个查询中返回成员计数？

浏览 0提问于2012-07-24得票数 2

回答已采纳

1回答

使用Graph只从AAD组中获取“group”类型成员的计数

、、

是否有图API从AAD组中获取特定类型成员的计数？例如，考虑以下AAD组：此组包含两个类型为“group”的成员。是否有一个图API来获取计数(2)？或者我应该从组中获取所有成员并进行一些筛选，以获得“group”类型的成员，如下所示： var groups =

浏览 5提问于2022-07-13得票数 1

回答已采纳

1回答

从sparlyr tibble对象读取数据时访问列错误

、、、

我正在尝试从这个链接复制sparK中的肌萎缩侧索硬化症的基本示例： user = c(1, 2, 0, 1, 2, 0),这段代码对我来说没有问题，问题是我不能操作预测表中的值，预测表的格式如下： prediction = ml_re

浏览 0提问于2020-03-18得票数 0

2回答

大多数共现项的dplyr语法

、

我有一个有两个列的数据框架:I和组。一个id可以是多个组的成员。现在，我正在寻找一种dplyr方法来迭代每个唯一的id，并根据它们所属的组获得10个最重叠的其他id。所以，对于每个id得到它所属的所有组，然后得到这些组中的所有id，按id分组，基本上按计数排序。这是在一个数据库中，所以我想<e

浏览 5提问于2022-01-25得票数 0

1回答

删除闪烁栏中的NA列

、、、

我有一个有75列的数据表，其中12列有全部NA，有些列有70% NA，我想删除具有>=70% NA的列。df[,!apply( df , 2 , function(x) all(is.na(x)) ) df[= nrow(df)]df[, colSums(is.na(df)) < nrow(df)] colSums中<

浏览 2提问于2017-03-23得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark_read_csv的Sparklyr维度问题: NA结果

使用sparklyr对大数据进行滚动应用

从列表中创建一个因素

在使用sparklyr调用collect_list时根据另一个变量保留顺序

使用sparklyr返回逻辑计划

Sparklyr中split-apply-combine策略错误处理

斯帕克利:如何在不同的群体中获得一个均衡的样本

使用summarize_all()查找sparklyr数据的中位数

在Databricks中使用sparklyr注册临时表

使用筛选器或从火花中选择后的数据示例

优化复杂的分组变异依赖行(查找？)

Powershell : Get-AzureADGroupMember所有嵌套组的成员

使用Graph只从AAD组中获取“User”类型成员的计数

固定还原collectionGroup查询返回空结果

使用LINQ通过一次查询获取外键表

使用Graph只从AAD组中获取“group”类型成员的计数

从sparlyr tibble对象读取数据时访问列错误

大多数共现项的dplyr语法

删除闪烁栏中的NA列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐