Spark的数据流上的setNumberOfWorkerHarnessThreads等价物？_Spark:数据帧中zipwithindex的等价物_GCP数据流上的GPG文件解密 - 腾讯云开发者社区

、、、

我有一个严格的I/O限制(Java)光束管道，在Google Cloud Dataflow上，我使用数据流光束选项"setNumberOfWorkerHarnessThreads( 16 );“在每个虚拟我正在尝试将相同的管道移植到Spark上运行，但我在Spark上找不到相同的选项。我尝试过自己的线程化，但这似乎在SparkRunner上造成了问题，因为DoFn的ProcessElement部分会返回，但稍后在线

浏览 12提问于2021-05-05得票数 0

1回答

我可以在单个apache beam代码中使用多个Runner吗？

、、、

我是新来的阿帕奇光束。到目前为止，我的理解是，apache beam只不过是ETL处理的工具。Runner可以被称为CPU、内存和存储的集合。我的问题是，我可以在单束python代码中使用两种或更多类型的runner吗？例如，一个runner用于数据流，另一个用于spark，第三个用于directrunner，像这样？

浏览 29提问于2020-06-29得票数 1

1回答

星火流-> DStream.checkpoint与SparkStreaming.checkpoint

、

我有Spark1.4流应用程序，它从Kafka读取数据，使用状态转换，并有15秒的批处理间隔。所以我的问题是：如果我只在星火流上下文上设置检查点会发生什么？我想DStreams每批间隔都会被检查？如果我同时设置流上下文上的检查点以及从Kafka读取<em

浏览 2提问于2016-06-09得票数 2

回答已采纳

1回答

如何在Google Dataproc上安排Spark作业？

、

我想使用Dataproc在Google Cloud上创建一个摄取/聚合流程，在此之前，我每天/小时都希望在收集的数据上运行Spark作业。有没有办法安排Spark作业？或者基于例如到达流上的任何新的数据事件来制作该触发器？

浏览 23提问于2020-08-24得票数 2

回答已采纳

4回答

KStreams +火花流+机器学习

、、、、

我正在做一个在数据流上运行机器学习算法的POC。Spark Streaming -->聚合多个表中的数据-->在数据流上运行MLLib -->产生输出。我的想法是持续训练测试数据，而不是批量训练。

浏览 2提问于2016-12-14得票数 9

1回答

Spark上下文和流上下文的组合

、

我想在流上下文停止后执行一些批处理计算。(strContext.stop(true，true) )有人能提供一个流式处理后批量计算的例子吗？

浏览 1提问于2016-06-13得票数 0

2回答

pyspark流媒体是否适合机器学习/科学计算？

、、、

我是spark的新手，不得不写一个流媒体应用程序，它必须执行一些任务，比如快速傅立叶变换和一些机器学习的东西，比如使用svms进行分类/回归等。我想在pyspark中做到这一点，因为python有各种各样的模块，比如numpy，scikit-learn等等。我的问题是，在流媒体应用程序中可以做这样的事情吗？据我所知，spark使用dstream。这些流是否可以转换为numpy数组之类的内容，或者可以作为python函数的输入

浏览 0提问于2017-09-25得票数 0

1回答

观点:从Spark streaming或结构化streaming任务中查询数据库

、、、

我们有一个Spark streaming用例，其中我们需要从摄取的事件(在Kafka中)计算一些指标，但计算需要额外的元数据，而这些元数据并不存在于事件中。我能想到的最明显的设计模式是从spark executor任务对元数据表(在master DB上)进行点查询，并在每个事件的处理过程中使用这些元数据信息。另一个想法是在将事件发送到Kafka之前，在单独的流水线中“丰富”这些事件

浏览 6提问于2019-10-26得票数 0

1回答

Spark Structured Streaming -无需重新读取数据的多个聚合

、

我正在研究将Apache Spark用于一个应用程序。我对使用临时视图和完整SQL查询的结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入数据流上运行多个(数十个，可能数百个)查询。有没有办法避免Spark重复读取每个查询的输入？

浏览 27提问于2021-01-20得票数 0

回答已采纳

2回答

使用静态训练数据初始化StreamingKmeans模型

、、、

我可以使用训练数据集构建Spark Kmeans模型。我想让我的模型适应新的数据，所以Spark StreamingKmeans对我来说似乎很棒。然而，似乎星火的StreamingKmeans只能在数据流上进行训练。没有办法用默认的kmeans模型初始化它，在一些静态训练数据上训练，然后随着时间的推移用新的流式输入数据训练模型。是否有一种方法可以

浏览 13提问于2016-07-25得票数 0

回答已采纳

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

、

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

2回答

排列星河数据集列

、、、

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。.withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) org.apache.spark.sql.AnalysisException:流数据框架/数据

浏览 0提问于2018-07-06得票数 4

回答已采纳

2回答

SparkSession和SparkContext有什么区别？

、

也就是说，Sparksession有内部的sparkcontext和conf。

浏览 0提问于2018-03-30得票数 16

1回答

h2o +r+流集成

、

我试图用R连接到闪闪发光的水，并分析我在H20流上的数据帧。我可以使用sparkly和sparklingR包从R连接到Spark实例，并生成一些H20数据。请建议我如何使用与spark_connect创建的相同的火花上下文来访问流。

浏览 1提问于2017-05-09得票数 0

2回答

风暴与火花

、

我想检查一下，看看从暴风闪电中调用Spark代码是不是一个好主意。我们在Storm中有一个基于流的系统。因此，根据消息，我们希望这样做ML，我们正在考虑使用Spark来实现。

浏览 0提问于2015-05-01得票数 0

1回答

如何通过spark* streaming处理多个.gz文件？*

我一直在尝试通过火花流从hadoop文件系统中读取多个.gz文件。有可能做到这一点吗？如果是，你能给我一个解决方案吗？

浏览 1提问于2016-12-26得票数 0

0回答

在spark* streaming scala中应用聚合函数*

、、、

我需要在具有apache spark streaming (无APACHE SPARK STREAMING SQL)的数据流上应用聚合函数。在我的例子中，我有一个kafka生产者，它以JSON格式发送消息。

浏览 3提问于2017-06-15得票数 0

2回答

spark streaming中的缓存是否提高了性能

、

因此，我在kafka流中的同一rdd上执行多个操作。缓存RDD会提高性能吗？

浏览 1提问于2015-05-15得票数 5

2回答

火花流持久表更新

、、、

我有一个星星之火的结构化流应用程序(听kafka)，它也是从s3中的一个持久表中读取的，我正在尝试让每个微批检查表的更新。`s3n://myFolder/`")spark.catalog.refreshTable("myTable!")spark

浏览 0提问于2018-05-09得票数 3

回答已采纳

1回答

创建火花流上下文后将RDMS数据缓存在spark中

、、、、

我们使用火花流从卡夫卡获得数据使用createDirectStream。在同一个程序中，我连接到MYSQL，从数据库中获取一些数据。现在，我想使用spark缓存这个结果。这里的问题是，我在一开始就创建了一个星火流上下文，现在为了缓存这个MYSQL数据，我必须将其转换为一个RDD，这个RDD只有在spark上下文的帮助下才能实现，不幸的是，我不能创建spark上下文(因为已经根据spark<

浏览 6提问于2016-04-08得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云