火花急流:简单的HashAggregate示例

文章/答案/技术大牛

发布

1回答

rapids

大家好，我是新来的火花急流。我正在浏览Spark Rapids的基本介绍，在那里我得到了一个附图(附图)，解释了基于CPU和GPU的查询计划之间的差异，例如哈希聚合。计划中的所有内容，除了最后一阶段转换为行格式之外，我都不清楚。有人能建议一下这背后的原因吗？

浏览 69提问于2020-10-12得票数 0

1回答

并行数据预处理

machine-learning、parallel、cuda

我在找一个建议。是否可以并行实现数据预处理步骤，如缺失值计算、孤立点检测、归一化、标签编码等？我能为数据预处理实现cuda/openmp/mpi编程吗？谢谢。

浏览 0提问于2022-09-08得票数 2

回答已采纳

1回答

使用`df.select(列).distinct().collect()来获取数据中的唯一值

apache-spark

根据我对火花如何工作的有限理解，当调用.collect()操作时，将对列column中的数据进行分区，在执行器之间进行拆分，将.distinct()转换应用于每个分区，并将取消的结果发送给驱动程序。但是，是否有可能在驱动程序中复制记录(因为重复是在每个执行器上独立进行的)？我们是否需要在收集的结果上再次应用.distinct()以消除重复的结果？

浏览 2提问于2022-08-01得票数 0

回答已采纳

1回答

为什么星火计数行动分三个阶段执行

apache-spark、apache-spark-sql

为什么这个简单的动作被执行为三个阶段。我认为第一阶段是加载文件，第二阶段是在每个分区上找到计数。val sample = spark.read.format("csv").option("header", "true").option("inferSchema", "true").option

浏览 3提问于2019-11-06得票数 2

回答已采纳

1回答

为什么Spark要运行5个作业来进行简单的聚合？

apache-spark、apache-spark-sql

我在IDE/eclipse的local模式下使用Spark。 spark.sql(totalMoneySql).show(false) spark.stop() 如图所示，一个简单的计算的钱的总和，为每个城市现在火花-UI显示==> 5就业，每一个2阶段！但是

浏览 10提问于2019-10-25得票数 4

回答已采纳

2回答

我查看了Postgres查询计划，注意到上一步开始时间与下一步结束时间没有重叠，所以我想知道间隔时间是在哪里度过的？正如您在下面看到的，查询执行程序有两个步骤。我的问题是5730.776到19199.316年间发生了什么？-------------------------------------------------------------------------------------------------- HashAggregate

浏览 7提问于2013-09-22得票数 4

回答已采纳

1回答

火花ENSURE_REQUIREMENTS解释

apache-spark

有人能用一个实际的例子来解释ENSURE_REQUIREMENTS是如何产生的吗？我看了一下这里，，但我不知道该怎么做。斯派克的某种保险让事情进展顺利？您可以参考我的另一个这样的问题：。在那里，我做了实验，但不知道为什么会发生这种情况。我的同事也不能解释。

浏览 3提问于2022-10-30得票数 1

回答已采纳

1回答

在Apache spark SQL中如何计算不同的工作

apache-spark、apache-spark-sql

我正在尝试计算不同日期范围内的不同实体数量。我需要了解spark是如何执行这个操作的from daily_cust_12month_ds没有错误，但这需要花费大量的时间我想知道在Spark中有没

浏览 0提问于2019-07-17得票数 2

2回答

为什么Postgres在分组之前对多行进行排序？

postgresql

这是我的桌子： Column | TypeKEY, btree (code)这是我的疑问CCG' ORDER BY date, row_id;

浏览 0提问于2015-08-05得票数 8

1回答

apache-spark、apache-spark-sql、parquet

我有一个dataframe df，按照这个顺序，列A,B,C,D保存为A,B,C列上分区的拼花文件。这对我来说毫无意义，因为第一个分区是在a之上的。造成这种行为的原因是什么？用火花解释编辑：(events .select('D') .explain()Adaptiv

浏览 0提问于2021-09-09得票数 2

1回答

非常慢的火花性能

performance、apache-spark、hive

我是一个新手火花，需要一些帮助来调试非常慢的性能在火花。我正在做下面的转换，它已经运行了2个多小时。VM集群上的hive.2.1.1读取数据，每个节点具有250 on和64个虚拟核心。有了这个巨大的资源，我期待着这个170万个recs的简单查询能飞起来，但它非常慢。任何提示都会有很大的帮助。. +- *HashAggregate(keys=[c

浏览 0提问于2017-06-07得票数 0

2回答

对象apache不是包org的成员。

scala、intellij-idea、apache-spark

我正在编译scala应用程序，我在标题中发现了输入的错误。Scala版本: scala 2.11.8火花版本: Spark 1.6.1 Intellij: 2016 1.3将:=命名为“简单项目”scalaVersion := "2.11.8“有可能scala

浏览 8提问于2016-06-29得票数 2

回答已采纳

1回答

在postgresql中以不同的方式保留按in排序的顺序

postgresql、group-by、distinct

我有一个查询，它返回一个简单的数字列表：就像143162125select distinct(id) from (select ...) as c; 不工作，因为它使用HashAggregate，它打破了顺序(并处理所有行只返回我尝试了GROUP BY，它还使用HashAggregate整个表(？)然后排序并返回10行所

浏览 6提问于2021-12-14得票数 1

1回答

不使用Maven的Apache程序执行

apache-beam、apache-beam-io

我想运行一个简单的例子梁程序使用Apache火花跑步。1)我成功地在本地编译了这个程序。2)我希望将JAR文件推送到未安装Maven的QA框中。3)使用Maven命令编译并执行示例程序的示例。4)请您告诉我在不安装Maven的情况下运行代码的步骤。5)火花-提交命令运行良好。6)你想让我把所有依赖的JAR文件一个一个地放到/opt/mapr/spark/sma

浏览 5提问于2017-09-20得票数 0

回答已采纳

点击加载更多