运行Spark聚合器示例

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我正在尝试运行Spark2.4.3文档中的示例，该文档在Databricks集群上找到了here。def outputEncoder: Encoder[Int] = org.apache.spark.sql.Encoders.scalaIntval aggregated = ds.select(customSummer).collect 我得到的错误是：org.apache.spark.SparkException: Task

浏览 22提问于2020-07-09得票数 0

1回答

如何在非阻塞模式下启动spark (使用thrift服务器)，以便hive可以更新数据并将数据重新加载到spark中(查看表格)

、、、

我们需要同时从hive和spark (使用thrift服务器)访问表格。然而，我们的问题是在spark上运行spark和thrift服务器导致一个表的查找。我们在Amazon AWS EMR集群上运行，其中包含Hive、Spark和thrift Server2。我们希望使用hive更新s3存储，并定期在后台将这些聚合数据加载到spark中。同时，Spark总是加载了thrift服务器</e

浏览 2提问于2015-12-22得票数 0

2回答

如何对流式DataFrame进行多时间窗操作？

、、、

我在DataFrame中有3列：- time:TimeStamp，col1:Double，col2:Double我想执行以下操作： .groupBy(window(col("time"),"10 seconds","1 second")) .agg(mean("col1") with window of 10 seconds,max("col") with

浏览 0提问于2017-08-30得票数 1

2回答

当使用cassandra spark连接器进行数据聚合时，如何并行化RDD工作？

、、

这里是示例senario，我们在cassandra中有实时数据记录，我们想要聚合不同时间范围内的数据。代码的问题是，对于每个时间范围，聚合工作都不是以并行方式运行的。我的问题是，我如何并行化聚合工作？因为RDD不能在另一个RDD或Future中运行？有没有办法将工作并行化，或者我们不能在这里使用spark连接器？

浏览 5提问于2016-01-12得票数 1

1回答

由多个键组成的组火花类型安全聚合

在下面的代码段中，第二个聚合失败(并不奇怪)： import org.apache.spark.sql.agg(aggregator) .show(truncate =

浏览 1提问于2018-10-04得票数 1

回答已采纳

1回答

从ResourceManager图形用户界面访问终止的Spark作业日志

、

我在YARN上运行Spark应用程序，当我使用以下命令终止作业时：我无法从Hadoop GUI(ResourceManager)转到killed应用程序的Spark Job GUI。当我直接打开Spark历史服务器，并尝试显示不完整的应用程序日志时，它可以工作。当作业完成(未终止)时，日志可以这样显示: Hadoop GUI、->、Spark历史服务器。我正

浏览 0提问于2015-10-02得票数 2

3回答

org.apache.spark.SparkException:由于阶段失败而中止作业:应用程序中的任务

我在独立集群上运行spark应用程序时遇到问题。(我使用的是spark 1.1.0版本)。我通过命令成功地运行了master server：然后我通过命令运行一个worker： bash spark-class org.apache.spark.deploy.worker.Worker然后，我从Eclipse运行我的应用程序，露娜。\conf;D:\spark\bin\..\lib\<em

浏览 3提问于2014-11-13得票数 19

回答已采纳

1回答

优化火花放电的Collect_List函数

、、

我需要聚合我的数据，以便它生成这个输出：{ { "lastName"firstName": "Jimmy", "age": "75" ]但是，在

浏览 1提问于2019-10-17得票数 1

1回答

在DF上运行视图上的Spark查询吗？

、

我想问的是-我是否可以获得视图正在执行的查询，然后使用spark来执行查询？示例：视图查询运行在hive (hive上下文)上，因此效率不高。

浏览 5提问于2017-09-07得票数 2

1回答

如何处理从最后一次输出到接收器的流中的消息？

、

我是spark的新手，我有一个想要以追加输出方式发出聚合的用例。我知道追加模式不适合聚合，spark只有在我们提供窗口操作(以及水印)的情况下才支持该功能。现在，我想让spark做的是忘记旧的消息(已经在流中处理的消息)，只获取在最后一次输出和当前时间(即当前微批)之间到达的消息，并在其上计算聚合并发出结果。我认为这相当简单，但找不到如何做到这一点的示例。

浏览 2提问于2021-06-09得票数 0

1回答

如何在Google Dataproc上安排Spark作业？

、

我想使用Dataproc在Google Cloud上创建一个摄取/聚合流程，在此之前，我每天/小时都希望在收集的数据上运行Spark作业。有没有办法安排Spark作业？或者基于例如到达流上的任何新的数据事件来制作该触发器？

浏览 23提问于2020-08-24得票数 2

回答已采纳

1回答

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

、、、

我们想使用apache spark进行实时分析吗？我们目前使用hive/MR进行数据处理，使用mysqlsql存储聚合结果，并使用jasper报告进行分析？我们正在探索在hdfs或cassandra上运行apache spark的过程中，唯一的问题是spark是否有办法与jasper服务器集成？如果不是，还有什么UI选项可以与spark一起使用？

浏览 1提问于2015-02-21得票数 2

1回答

如何累积运行spark* sql聚合器？*

、、

我目前正在处理一个使用spark datasets (Java语言)的项目，在该项目中，我必须创建一个从累加器派生的新列，该列遍历所有以前的行。即:对Dataset<CustomType>上的org.apache.spark.sql.expressions.Aggregator执行相同的操作。这里的问题是，我已经看过了所有的文档，但无法弄清楚如何让它以与上面相同的方式运行(即，我只能获得整个列的最终聚合，而不是每行的累积状态)。我正在尝试做的事情是可能的吗?如果可能，如何做？| 2

浏览 7提问于2019-07-22得票数 0

3回答

卡桑德拉+火花执行器超收敛

、、

由于Apache是为Cassandra建议的分布式处理引擎，我知道有可能与Cassandra节点一起运行Spark执行器。我的问题是，驱动程序和火花连接器是否足够聪明，能够理解分区和碎片分配，以便以超聚合的方式处理数据。简单地说，执行者是否读取存储在运行执行器的节点上的分区中的数据，这样就不会像Spark在HDFS上运行时那样通过网络传输不必要的数据了吗？

浏览 11提问于2020-01-25得票数 1

回答已采纳

1回答

为什么spark.executor.instances不能工作？

给定的设置如下：当观察一个作业在这个集群的神经节中运行时而它的资源管理器“

浏览 0提问于2018-07-25得票数 2

回答已采纳

1回答

组织语法中的二维聚集

在我找到的示例中，仅对一维数据数组执行入库。为了模拟SQL的groupby/aggregation，我想要对2D数据进行bin。有没有可能使用组织图？ (问题转载自Michel Page。)

浏览 0提问于2016-11-29得票数 1

2回答

自1.0.0+以来，在Spark* UI中查看工作者/执行者日志*

、

在0.9.0中，查看工人日志很简单，他们在离spark ui主页只有一次点击的地方。... -Dspark.master=\"yarn-client\" ...

浏览 0提问于2014-12-12得票数 2

回答已采纳

1回答

无法理解aggregateByKey和combineByKey的工作

、

目前，我正在尝试使用Python学习各种聚合。为了给我所面临的问题提供一些背景，我发现很难理解aggregateByKey函数的工作原理，用"status“来计算订单数量。下面是我正在使用的代码和一些示例输出，下面是YouTube播放列表。

浏览 1提问于2016-02-02得票数 3

回答已采纳

1回答

Apache Spark多个聚合

、、

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2 实际的聚合比sum(1)复杂得多，但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的，我通过Spark sql上下文执行每个字符串，以创建代表相关聚合</em

浏览 1提问于2015-10-30得票数 0

2回答

蒙古-火花连接器的工作逻辑是什么？

、、

我一直在试图了解蒙戈火花连接器是如何工作的罩下，但我仍然没有得到整个工作逻辑的背后。entity_df = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource") \如果是，这是否意味着连接器只是一个只在MongoD

浏览 3提问于2017-12-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云