对rdd进行分组所依据的恢复元素

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark、rdd

我有一个这样的代码： given_list[i][2] , given_list[i][3], **user_id**))其中rdd1现在，在process_full函数中，我正在使用rdd1中的

浏览 0提问于2018-08-16得票数 1

回答已采纳

1回答

我需要加入两个大的RDDs，并且有可能两次加入。任何帮助，以设计这些连接。问题是，第一个RDD是productIdA, productIdB, similarity，大小约为100 G。第二个RDD为customerId, productId, boughtPrice，大小约为35G。因为我不能广播任何一个RDD，因为它们都很大，所以我的设计是通过product id聚合第二个RDD，然后加入第一个RDD twice，但是我得到了巨大的洗牌溢出和

浏览 1提问于2016-02-23得票数 0

回答已采纳

1回答

为了对元素进行分组，可以在Spark中实现CombineByKey()而不是GroupByKey()吗？

apache-spark

我正在尝试对我创建的RDD的元素进行分组。一种简单但昂贵的方法是使用GroupByKey()。但最近我了解到CombineByKey()可以更有效地完成这项工作。我的RDD非常简单。它看起来是这样的： (1,5)(1,40)(2,20) (2,6) val grouped_elements=first_RDD.groupByKey()..mapValue

浏览 4提问于2020-03-26得票数 1

回答已采纳

1回答

火花卡桑德拉连接器keyBy和洗牌

cassandra、apache-spark、grouping、shuffle、connector

此定义将以下列格式生成CassandraRow RDD元素： CassandraRow<key=profile1, column1=age, value=34>PairRdd<String,

浏览 4提问于2015-03-11得票数 5

回答已采纳

1回答

星火partition.toList失败

scala、apache-spark

我想要的是对一个分区中的多个元素进行分组，然后对每个分区中的分组元素执行一些操作。但是我发现从分区到列表的转换失败了。见下面的示例：val rdd = sc.parallelize(Seq("a","b","c","d&qu

浏览 3提问于2017-06-14得票数 0

回答已采纳

1回答

Django按关系数据分组

python、django、django-models、group-by

在Django{}{} 但是，是否可以使用相关对象的数据进行分组？也就是说，在上面的关系中，我可以按B的名字对A进行分组吗？

浏览 0提问于2010-02-10得票数 0

回答已采纳

1回答

django重组奇怪的行为

django、django-templates

由于某种原因，我无法在本地复制此问题，但在我的生产服务器上，在我的一个模板中，regroup标记做了一些奇怪的事情。我正在尝试对所有具有相同pickup_id的捐赠进行分组，并只显示其中有多少是“错过”的。由于某种原因，它在我的列表中多次显示相同的pickup_id。pickup_date }} ({{ routes.list|length }} missed - {{ routes.list.0.pickup_id

浏览 0提问于2012-09-17得票数 3

回答已采纳

2回答

可以在group by中计算列的合计吗？

sql、sql-server、tsql

我有一个sql查询，它生成以下表格，但我希望能够获得按类别分组的标记列的总数：代码如下：pis.Code as Code, pis.Name

浏览 1提问于2013-04-26得票数 3

回答已采纳

3回答

不删除重复项的MySQL分组方式

php、mysql

我的表看起来像这样：|user|guess|score||abc |12345|5 ||pqr |81920|13 |每当我使用SELECT user, score FROM guesses GROUP BY score时，我都会得到这样的结果+----+-----+|abc |5 ||jkl |13 |我

浏览 4提问于2013-05-06得票数 0

回答已采纳

1回答

Windows7RC中的分组依据、排序依据、堆叠依据标题上下文菜单发生了什么变化？

windows-7、windows-explorer、windows-shell

作为一名开发人员，我通常会根据文件类型对资源管理器详细信息视图进行分组。这样，所有配置文件、程序集、可执行文件等都被分组并准备好复制，只需单击组标题选择所有相关文件即可。自RC build 7100以来，仅第一次单击的组会选择所有相关文件，并且每次在新组上按住Ctrl键的同时单击都不会产生任何效果(该组中的相关文件不会被选中)。有没有什么我错过的选项来找回行为-可以从列表视图列标题上下文菜单中选择分组依据、排序<em

浏览 0提问于2009-05-11得票数 0

回答已采纳

1回答

使用数组对RDD进行分组

scala、rdd

我有一个包含以下元素的RDD：我希望使用数组对其进行分组，以便具有以下内容：

浏览 2提问于2016-08-14得票数 0

回答已采纳

1回答

在java中按键对RDD进行分组

apache-spark、rdd

我试图使用groupby对RDD进行分组。大多数文档建议不要使用groupBy，因为它是如何在内部对密钥进行分组的。还有其他方法来实现这个目标吗。前-JavaRDD<Entry> entries = rdd.groupBy(Entry::getId)

浏览 5提问于2018-01-09得票数 1

1回答

在Apache Spark中，为什么RDD.union不保留分区程序？

apache-spark、partitioning、hadoop-partitioning

众所周知，Spark中的分区对任何“宽”操作都有巨大的性能影响，所以它通常是在操作中定制的。我正在使用以下代码进行实验： sc.parallelize(1 to 50).keyBy(_ % 10)val rdd2 = val cogrouped = rdd

浏览 48提问于2015-05-01得票数 26

回答已采纳

1回答

如何根据用户输入动态更改匿名类型的属性？

vb.net

如果我有以下代码：Group item By item.Name问题是:我希望基于此分组生成一个网格，分组是由用户指定的，因此.Property将是用户指定为分组属性的列名。我在原始代码中使分组依据依赖于该用户，但我无法使.Property依赖于该用户，因此，如果用户指定按名称对列表进行分组

浏览 2提问于2017-09-27得票数 0

1回答

星火嵌套RDD操作

python、pyspark、apache-spark-sql、rdd

这里的对立面可能会有所不同。大小可以与rdd1相同或不同。这样做的目的是使用过滤rdd1将记录从rdd2的值提取到rdd2中(从rdd1获取的记录可以在获取时重复，就像在输出中看到的那样) 过滤标准rdd1.created 1.创建<= ts <rdd1.created使用键的某些条件对RDD2进行

浏览 1提问于2015-10-21得票数 4

回答已采纳

1回答

CoGroupedRDD是做什么的？

scala、apache-spark、rdd

有人能用简单的语言解释一下CoGroupedRDD是做什么的吗？下面的代码在两个RDDs之间进行连接。val schema = "some_schema"joinedRDD.take(10).foreach(println) val RDD3 = {sc.cassandraTable[(Int,String

浏览 11提问于2017-03-01得票数 3

回答已采纳

4回答

GROUP BY排序依据

mysql、group-by、sql-order-by

这是我的代码： `pages`.`id`, [...] 结果将如下所示：1 32 32 1 我需要按ID分组

浏览 3提问于2011-09-06得票数 10

1回答

在新页面上更改组

crystal-reports

我需要在水晶报表中创建一个摘要页面，在那里它用相同的ItemName对所有细节进行分组，并计算总数Balls 50Food10Food 68Balls 125Dolls45 报告已按另一个详细信息分组，是否仍要更改最后一页上报告的分组<em

浏览 0提问于2015-11-05得票数 0

1回答

为什么RDDs不适合流任务？

apache-spark、rdd

我正在广泛地使用Spark，Spark的核心是RDD，正如RDD论文所示，在流应用程序方面也有局限性。这是RDD文件的准确引文。正如在介绍中所讨论的，RDDs最适合于将相同操作应用于dataset所有元素的批处理应用程序。在这些情况下，RDDs可以高效地将每个转换记为谱系图中的一个步骤，并且可以恢复丢失的分区，而不必记录大量数据。RDDs不太适合于对共享状态进行异

浏览 2提问于2016-03-06得票数 2

1回答