Spark结构流中的临时视图

是指在Spark结构流中创建的一种临时的、基于DataFrame或Dataset的视图。临时视图可以用于执行SQL查询或DataFrame操作，以便对流式数据进行分析和处理。

临时视图的创建可以通过以下步骤完成：

首先，需要将流式数据转换为DataFrame或Dataset的形式，可以使用Spark提供的流式数据源，如Kafka、Flume等，或者通过自定义数据源进行数据读取。
接下来，使用DataFrame或Dataset的API对数据进行处理和转换，例如过滤、聚合、排序等操作。
在数据处理完成后，可以通过调用createOrReplaceTempView方法将DataFrame或Dataset注册为一个临时视图。该方法接受一个字符串参数作为视图的名称。

一旦临时视图创建成功，就可以使用Spark的SQL语法或DataFrame的API对其进行查询和操作。例如，可以使用spark.sql方法执行SQL查询，或者使用DataFrame的API进行过滤、聚合等操作。

临时视图的优势在于可以方便地对流式数据进行分析和处理，同时也可以与传统的批处理数据进行无缝集成。它可以提供实时的数据分析和查询能力，适用于需要对实时数据进行处理和分析的场景，如实时监控、实时报表等。

腾讯云提供了一系列与Spark结构流相关的产品和服务，包括云数据仓库CDW、云数据湖CDL、云数据集市CDS等。这些产品可以帮助用户快速构建和管理Spark结构流，实现实时数据处理和分析的需求。

更多关于Spark结构流和相关产品的详细信息，可以访问腾讯云官方网站的以下链接：

请注意，以上答案仅供参考，具体的产品和服务选择应根据实际需求和情况进行。

Spark结构流中的临时视图

、、、、

在ForeachBatch Function Structured Straming中，我想创建在微型批次中接收的数据帧的临时视图 func(tabdf, epoch_id): tabaDf.createOrReplaceView("taba") 但是我得到了下面的错误： org.apache.spark.sql.streaming.StreamingQueryException: Table or view not found: taba Caused by: org.apache.spark.sql.catalyst.analysis.NoSuchTableExc

浏览 28提问于2020-07-03得票数 0

1回答

Spark Structured Streaming -无需重新读取数据的多个聚合

、

我正在研究将Apache Spark用于一个应用程序。我对使用临时视图和完整SQL查询的结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入数据流上运行多个(数十个，可能数百个)查询。有没有办法避免Spark重复读取每个查询的输入？

浏览 27提问于2021-01-20得票数 0

回答已采纳

1回答

使用Spark BigQuery连接器查询BigQuery视图时未启用缓存

、、、、

我正在使用Spark BigQuery连接器从Dataproc集群中查询表和视图，我看到的是，当请求未使用缓存的视图时，连接器会为每个读取的视图创建一个新的临时表： df = spark.read.format('bigquery').option('table', view_name).option('viewsEnabled', 'true').load() 当我从一个表中读取数据时，情况并非如此，这里使用的是缓存： df = spark.read.format('bigquery').option('

浏览 0提问于2021-01-13得票数 2

1回答

如何使用Spark在从全局临时视图创建的Dataframe中选择元素

、、、

我需要在全局临时视图中存储一个obect，然后使用Spark读取值。在从从全局temp视图创建的dataframe中选择时，我得到了一个错误。错误消息:由于阶段失败而中止作业:第8.0阶段中的任务15失败4次，最近一次失败:阶段8.0中丢失的任务15.3 (TID 220) (10.139.64.4执行器0)：org.apache.spark.api.python.PythonException： TypeError: StructType不能接受<class 'str'>类型的对象'conn_string‘> 这并不是由于任何特定的类属性，因为如果

浏览 3提问于2022-10-30得票数 0

1回答

Azure数据库流到streaming时缺少条目

、、

首先，我有以下说明，当上传20.000个文件时，我在DB中得到了20.000条记录(每个文件只包含1个rec)。 aTracking = sqlContext.read.format('csv').options(header='true', delimiter=';').schema(csvSchema).load("wasbs://" + blobContainer + "@" + blobStorage + ".blob.core.windows.net/rtT*.csv") aTracki

浏览 0提问于2018-10-27得票数 1

回答已采纳

2回答

全局临时视图的用途是什么？

、、

尝试了解如何使用Spark全局临时视图。在一次spark-shell会话中，我创建了一个视图 spark = SparkSession.builder.appName('spark_sql').getOrCreate() df = ( spark.read.option("header", "true") .option("delimiter", ",") .option("inferSchema", "true") .csv("/user/roo

浏览 0提问于2018-03-05得票数 3

回答已采纳

1回答

为什么"java.lang.ClassNotFoundException:未能找到数据源: kinesis“与火花流驱动-asl依赖？

、、、

我的设置： scala:2.11.8 spark:2.3.0.cloudera4 我已经在我的.pom文件中添加了以下内容： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kinesis-asl_2.11</artifactId> <version>2.3.0</version> </dependency> 然而，当我运行我的星火流代码来使用来自kinesis的数据时，它会

浏览 2提问于2018-11-29得票数 2

回答已采纳

1回答

如何将流数据从spark接收到Mongodb？

、、

我正在使用pyspark读取Kafka的流数据，然后我想将这些数据汇到mongodb。我已经包含了所有必需的包，但是它会引发以下错误 UnsupportedOperationException:数据源com.mongodb.spark.sql.DefaultSource不支持流写入。以下链接与我的问题无关下面是完整的错误堆栈跟踪回溯(最近一次调用)：.option("com.mongodb.spark.sql.DefaultSource"，“mongodb://localhost:27017/twitter.test”中的文件“/home/b3ds/kafka-sc

浏览 4提问于2018-06-04得票数 2

2回答

必须使用writeStream.start()；执行流源查询；

、、、、

我试图从卡夫卡读取数据使用火花结构化流和预测形式的传入数据。我用的是我用Spark训练的模型。 val spark = SparkSession .builder() .appName("Spark SQL basic example") .master("local") .getOrCreate() import spark.implicits._ val toString = udf((payload: Array[Byte]) => new String(payload)) val sentenceDataFrame = spark

浏览 7提问于2017-10-03得票数 2

回答已采纳

1回答

将星火结构流DataFrames转换为Pandas DataFrame

、、、、

我有一个Streaming设置，它消耗了一个Kafka主题，我需要使用一些使用的App，但是当我试图转换它时，我得到了以下内容 : org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();; kafka at org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$anal

浏览 1提问于2019-03-05得票数 3

回答已采纳

1回答

结构化流Kafka 2.1->齐柏林飞艇0.8->星火2.4:火花不使用jar

、、、、

我有一个Kafka2.1消息代理，希望对Spark2.4中的消息数据进行一些处理。我想用齐柏林飞艇0.8.1笔记本进行快速原型。我下载了结构化流()所必需的星火流-kafka-0-10_2.11.jar，并将其作为“依赖-工件”添加到齐柏林飞艇( Zeppelin )的“streaming”-interpreter(也处理%pyspark段落)中。我重新启动了这个解释器(还有齐柏林飞艇)。我还把罐子装进了笔记本的第一段(我首先认为这不应该是必要的.)： %dep z.load("/usr/local/analyse/jar/spark-streaming-kafka-0-10_2.

浏览 1提问于2019-07-19得票数 5

回答已采纳

1回答

在sparklyr中断开连接后，spark数据帧会自动删除吗？如果没有，我们该怎么做呢？

、、、、

在关闭连接时，以以下方式复制到spark的数据帧会发生什么情况？ library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") iris_tbl <- copy_to(sc, iris) spark_disconnect(sc) 如果它们不是自动删除的，除了通过下面的方法删除每个数据帧之外，有什么简单的方法可以删除在会话期间创建的所有数据帧吗？ sc %>% spark_session() %>% invoke("catalog") %>% invoke

浏览 5提问于2018-08-24得票数 0

回答已采纳

1回答

如何从SocketTCP获取数据以保存到Scala中的数据？

、、

--我尝试从Socket获取数据以附加到dataframe --我接收了数据并将其执行到Seq()中，但是当我使用forEach将它们附加到dataframe时，有一个问题--这是我的代码： object CustomReceiver { def main(args: Array[String]): Unit = { StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val spark: SparkSession = SparkS

浏览 2提问于2021-06-21得票数 0

回答已采纳

2回答

如何摆脱org.apache.kafka.clients.consumer.KafkaConsumer.subscribe :火花流+卡夫卡中的NoSuchMethodError错误

、、、、

我想使用星火流，并连接它与卡夫卡。然而，我仍然得到了NoSuchMethodError: NoSuchMethodError错误，现在我只是不知道下一步该做什么。我的设置： Ubuntu 16.04 Scala 2.11 Kafka 2.11-1.0.0 (我也尝试使用2.11-0.10.0.0) 火花2.2.1 Hadoop 2.9.0 我甚至不能运行示例脚本： from pyspark.sql import SparkSession, Row, SQLContext from pyspark import SparkContext, SparkConf from pyspark.stre

浏览 1提问于2018-02-09得票数 3

1回答

结构化流从kafka获取错误电流偏移量

、

当使用lib："org.apache.spark" %% "spark-sql-kafka-0-10" % "2.4.0"运行火花结构化流时，我们经常会收到当前偏移取的错误：由: org.apache.spark.SparkException:由于阶段失败导致作业中止:阶段0.0中的任务0失败4次，最近的失败:阶段0.0中丢失的任务0.3 (TID 3，qa2-hdp-4.acuityads.org，执行器2)：断言失败:最新的offs -9223372036854775808不等于-1在org.apache.spark.sql.kafka0

浏览 3提问于2019-01-24得票数 1

回答已采纳

1回答

阿帕奇火花与卡夫卡流-失踪的卡夫卡

、、、

我试着用kafka来设置Apache，并用本地语言编写了简单的程序，它失败了，无法从调试中找到答案。 build.gradle.kts implementation ("org.jetbrains.kotlin:kotlin-stdlib:1.4.0") implementation ("org.jetbrains.kotlinx.spark:kotlin-spark-api-3.0.0_2.12:1.0.0-preview1") compileOnly("org.apache.spark:spark-sql_2.12:3.0.0") imple

浏览 11提问于2021-12-26得票数 1

1回答

用DataFrame实现火花状态流

、、

是否可以将DataFrame用作星火流的状态/ StateSpec？当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等)。我的目标是保持一个固定大小的FIFO缓冲区作为一个StateSpec，每次新的数据流都会被更新。为了与Spark兼容，我想在Spark中实现缓冲区。

浏览 2提问于2018-02-22得票数 1

回答已采纳

1回答

PySpark和Kafka: org.apache.spark.SparkException:未能在JAR中获得“文件文件.不存在”错误的主类

、、

我试图创建一个简单的星火结构化流媒体应用程序，我需要从卡夫卡读取流。但是，当我运行以下代码时： df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subscribe, "mytopic") \ .load() 然后我得到以下错误： AnalysisException: Failed to find data source: kafka. Please de

浏览 4提问于2021-09-16得票数 0

回答已采纳

1回答

对于spark结构化流式处理Json记录，架构是否为必填项

、、

我正在浏览下面的博客中的spark structured。他首先使用下面的代码创建模式变量。 val cloudTrailSchema = new StructType() .add("Records", ArrayType(new StructType() .add("additionalEventData", StringType) .add("apiVersion", StringType) .add("awsRegion", StringType) 下面是实际的spark代码 val raw

浏览 3提问于2018-03-23得票数 1

1回答

是否有可能使用Spark与星火结构流的库？

、、、

我想对我从一个卡夫卡集群中获得的消息流执行tweet情绪分析，该集群反过来从Twitter v2中获取这些消息。当我尝试应用预先训练过的情感分析管道时，我会收到一条错误消息，上面写着：Exception: target must be either a spark DataFrame, a list of strings or a string，我想知道是否有办法解决这个问题。我已经检查了文档，在流数据上找不到任何东西。这是我使用的代码： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 7提问于2022-03-23得票数 1

回答已采纳

1回答

如何解决阶段20.0 (TID 20)任务0.0中的错误执行器异常？

、、、、

--我知道类似的问题已经得到了简短的回答，但由于缺乏最低限度的reputation...hence，我无法在此补充我个人的怀疑--我在这里问它-- 我想使用Apache + Kafka来处理Twitter数据。我为此创造了一个模式。但是当我运行它时，我会得到以下错误。我搜索了很多关于这个错误的地方，但是我无法得到我想要的解决方案，或者它没有工作。上一次我用较小的内存空间运行Spark时，我认为内存不足，但我仍然会遇到同样的错误。这是我收到错误的代码： from kafka import KafkaConsumer from pyspark.streaming import StreamingC

浏览 2提问于2019-12-29得票数 2

回答已采纳

1回答

在公共视图上具有不同触发间隔中继的火花结构化流多个查询

、

假设我们有一个结构化流应用程序，其中有多个接收器，具有不同的触发间隔，并且依赖于某些公共视图。如何处理普通视图:自动缓存或多次处理？以下是伪码 val ds = spark.readStream.format("kafka").load() ds.select(udf1(a) as a, udf2(b) as b, udf3(c) as c) .withWatermark(c, "1 minute") .createTempView("t0") // how will this line be handled? spark.sql(

浏览 1提问于2017-08-17得票数 3

回答已采纳

2回答

为什么结构化流在"java.lang.IncompatibleClassChangeError: Implementing“中失败？

、、

我想使用结构化流和PySpark一起运行Spark应用程序。我使用星火2.2和卡夫卡0.10版本。如果出现以下错误，我将失败： java.lang.IncompatibleClassChangeError:实现类 spark-submit命令，如下所示： /bin/spark-submit \ --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.2.0 \ --master local[*] \ /home/umar/structured_streaming.py localhost:2181 fo

浏览 5提问于2017-08-22得票数 3

1回答

与RabbitMQ的Spark结构化流媒体集成

、、

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming。有人知道更好的解决方案吗？

浏览 0提问于2018-04-16得票数 0

1回答

Spark结构化流中数据流数据的读取模式

、、、、

我是Apache结构化流的新手。我试图从事件集线器( XML格式)读取一些事件，并尝试从嵌套的XML创建新的Spark。我使用中描述的代码示例和批处理模式运行得很完美，但不是在结构化火花流中运行。星星之火的代码块-xml Github库 import com.databricks.spark.xml.functions.from_xml import com.databricks.spark.xml.schema_of_xml import spark.implicits._ val df = ... /// DataFrame with XML in column 'payloa

浏览 4提问于2021-01-21得票数 1

回答已采纳

1回答

Spark structured streaming -联合两个或多个流媒体源

、、、

我使用的是spark 2.3.2，在对来自Kafka的2个或更多流媒体资源进行联合时遇到了一个问题。这些都是来自Kafka的流媒体源，我已经将它们转换并存储在Dataframes中。理想情况下，我希望将此UNIONed数据帧的结果以parquet格式存储在HDFS中，甚至可能存储回Kafka中。最终目标是以尽可能低的延迟存储这些合并的事件。 val finalDF = flatDF1 .union(flatDF2) .union(flatDF3) val query = finalDF.writeStream .format("parquet&

浏览 52提问于2019-07-02得票数 1

回答已采纳

1回答

批处理层:如何读取和处理主数据中的新数据？

、

我正在构建一个lambda架构，我编码了流层，现在我正在做批处理层。为此，我使用Spark 2作为批处理程序，使用HDFS作为主数据。为了从HDFS读取数据，我编写了以下代码： SparkSession spark = SparkSession .builder() .appName("JavaWordCount") .master("local") .config("spark.sql.warehouse.dir

浏览 4提问于2016-12-20得票数 1

回答已采纳

1回答

如何将火花数据写入动态流？

、、、、

我正在创建一个Dataframe从一个卡夫卡主题使用火花流。我想把“Dataframe”写成一位动作制作人。据我所知，目前还没有官方的API。但互联网上有多种API，但遗憾的是，它们都不适合我。火花版本: 2.2 Scala : 2.11 我尝试使用并构建jar。但是由于这个jar和spark之间的包名相互冲突而导致的错误。请帮帮忙。 ###########这里是其他人的代码： spark-shell --jars spark-sql-kinesis_2.11-2.2.0.jar,spark-sql-kafka-0-10_2.11-2.1.0.jar,spark-streaming-kafka

浏览 0提问于2019-07-08得票数 2

回答已采纳

2回答

spark.sql.adaptive.enabled是否适用于星火结构化流？

、、

我使用Apache结构化流。结构化流是建立在Spark引擎上的可伸缩和容错的流处理引擎。由于它构建在Spark引擎上，这是否意味着spark.sql.adaptive.enabled适用于火花结构化流？

浏览 7提问于2022-04-30得票数 -1

1回答

Spark 2.1结构化流--使用Kakfa作为Python的源(pyspark)

、、、

对于ApacheSparkVersion2.1，我想使用Kafka (0.10.0.2.5)作为结构化流的源： kafka_app.py： from pyspark.sql import SparkSession spark=SparkSession.builder.appName("TestKakfa").getOrCreate() kafka=spark.readStream.format("kafka") \ .option("kafka.bootstrap.servers","localhost:6667") \ .o

浏览 4提问于2017-03-20得票数 2

回答已采纳

1回答

Databricks以Snowflake为源的结构化流？

、、、、

是否可以使用Snowflake表作为Databricks中spark结构流的源？当我运行以下pyspark代码时： options = dict(sfUrl=our_snowflake_url, sfUser=user, sfPassword=password, sfDatabase=database, sfSchema=schema, sfWarehouse=warehouse) df = spark.readStream.format

浏览 10提问于2020-02-20得票数 0

1回答

即使在将"auto.offset.reset“设置为”最新“获取错误OffsetOutOfRangeException之后

、、、、

我使用星星之火-SQL2.4.1版本和Kafka 0.10 v。当我试图通过消费者来消费数据的时候。即使在将"auto.offset.reset“设置为”最新“之后，也会出现以下错误 org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {COMPANY_INBOUND-16=168} at org.apache.kafka.clients.consumer.interna

浏览 5提问于2019-11-01得票数 1

1回答

UnsupportedOperationException同时通过pyspark传输数据

、、、、

我使用这段简单的代码从目录中读取json文件流。代码在Databricks笔记本上工作得很好，但是在本地运行时会抛出一个错误。我使用databricks-connect (Version8.1)连接并通过集群运行脚本。 from pyspark.sql.types import StructType from pyspark.sql import SparkSession spark = SparkSession.builder.appName("ProcessSensorData").getOrCreate() userschema = StructType().add(

浏览 3提问于2021-04-21得票数 4

1回答

火花结构化流与Neo4j

、

我的目标是使用Spark结构化流将转换后的数据从MongoDB集合写入Neo4j。根据Neo4j文档，这在"“版本4.1.2中是可能的。到目前为止，批处理查询工作正常。但是，通过下面的示例，我遇到了一条错误消息： spark-shell --packages org.mongodb.spark:mongo-spark-connector:10.0.2,org.neo4j:neo4j-connector-apache-spark_2.12:4.1.2_for_spark_3 val dfTxn = spark.readStream.format("mongodb") .

浏览 17提问于2022-06-27得票数 0

3回答

星火AnalysisException全局表或视图未找到

、、

我得到以下错误： 18/03/14 15:31:11错误ApplicationMaster: User类抛出异常: org.apache.spark.sql.AnalysisException:表或视图未找到: products；第1行pos 42 这是我的密码： val spark = SparkSession .builder() .appName("Test") .getOrCreate() val products = spark.read.parquet(prod

浏览 1提问于2018-03-14得票数 3

回答已采纳

1回答

数据库->雪花: SQL编译错误: Stage：'XYZ‘不能是管道定义中的临时阶段

、、、、

我试图将数据库中的流具体化到雪花表中： parsedStream .writeStream .outputMode(“追加”).options(选项) .option("dbtable“、"test_table") .option("streaming_stage”、"test_stage") .option("checkpointLocation“、”/dem-检查点“).format(”雪花“) .start() 选项包含对雪花进行身份验证所需的所有细节，此部分工作。我检查了预先创建的阶段和不存在的阶段，这样Databricks就可以

浏览 3提问于2019-11-07得票数 0

2回答

如何在start()之前执行操作？

、、

我正在开发一个火花流作业(使用结构化流，而不是使用DStreams)。我从kafka收到一条消息，其中将包含许多带有逗号分隔值的字段，其中第一列将是一个文件名。现在，基于该文件名，我将不得不从HDFS读取文件，并创建一个数据文件并在该文件上进一步操作。这似乎很简单，但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。此外，还有一些Dataset方法无法在流数据集上工作。它们是将立即运行查询和返回结果的操作，这在流数据集中没有意义。下面是我尝试过的。 object StructuredStreamingExample { case class fil

浏览 3提问于2017-10-13得票数 1

2回答

inferSchema=true不适用于csv文件读取n火花结构化流

、、、

我收到了错误信息 java.lang.IllegalArgumentException: Schema must be specified when creating a streaming source DataFrame. If some files already exist in the directory, then depending on the file format you may be able to create a static DataFrame on that directory with 'spark.read.load(directory)' a

浏览 18提问于2021-10-17得票数 4

回答已采纳

1回答

在卡夫卡星火流的情况下，spark.streaming.kafka.maxRatePerPartition和spark.streaming.backpressure.enabled有什么关系？

、、、、

我正在尝试将数据写入一个卡夫卡主题后，阅读了一个蜂巢表如下。 write_kafka_data.py: read_df = spark.sql("select * from db.table where some_column in ('ASIA', 'Europe')") final_df = read_df.select(F.to_json(F.struct(F.col("*"))).alias("value")) final_df.write.format("kafka")\

浏览 0提问于2021-09-13得票数 4

回答已采纳

2回答

火花应用程序不工作的动态资源分配

我是新来的火花，并试图了解如何动态资源分配工作。我有一个结构化的流媒体应用程序，它试图一次从Kafka读取数百万张唱片并处理它们。我的应用程序总是从3个执行者开始，从不增加执行者的数量。这需要5-10分钟才能完成。我认为它会增加执行者的数量(最多10个)，并试图更快地完成处理，这不是happening.What吗？这是怎么回事？我已经在安巴里为火场设置了下面的房产 spark.dynamicAllocation.enabled = true spark.dynamicAllocation.initialExecutors = 3 spark.dynamicAllocation.maxExe

浏览 0提问于2019-04-08得票数 0

回答已采纳

1回答

无法解析"createStream“中的"KafkaUtils”方法

、、、、

我试图使用Apache和Spark来流数据，但是我在代码的第24行中发现了一个错误：“无法解决”KafkaUtils“中的”KafkaUtils“方法”。我也尝试过使用KafkaUtils.createDirectStream，但这也不起作用。如何解决此错误？下面是我正在使用的文件 NumbersConsumer.java import java.util.HashMap; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.streaming.Duration; import org

浏览 12提问于2022-11-30得票数 0

1回答

在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

、、

我正在寻找一个包，或者使用redshift作为结构化数据流的源的以前的实现。 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式，您会在读取时出错。例如： Data source io.github

浏览 2提问于2020-11-18得票数 0

2回答

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？

、、、

在我当前的场景中，Nifi收集数据，然后发送给Kafka。然后，任何流媒体引擎都会消耗卡夫卡的数据，并对其进行分析。在这种情况下，我不想在Nifi和流媒体引擎之间使用卡夫卡。因此，我想将数据从Nifi直接发送到流引擎。但是，我不知道一些细节。例如，结构化流；如果我直接将数据从Nifi发送到Spark结构化流，Spark收到了这些数据，但是Spark的节点被关闭了。火花节点中的数据会发生什么变化？( Spark结构化流是否有任何Nifi接收器？)在这种情况下，Spark结构化流的数据保证是什么？例如，；Storm有Nifi Bolt。但是，假设Storm已经收到了Nifi的数据，但是节点被关

浏览 0提问于2019-02-14得票数 0

回答已采纳

3回答

如何在Spark结构化流上实现两个流之间的连接？- Java 8

、、

我知道，目前还不支持两个流之间的连接。但还是有办法的吗？还是我要等Spark2.2.0？谢谢

浏览 9提问于2017-04-20得票数 5

回答已采纳

1回答

无法从Spark2.2.0结构化流向Mongo写入数据？

、

我有以下代码，无法使用以下方法向Mongo写入数据。我甚至没有看到在MongoDB中填充数据库或集合名称。好像有什么不对劲。当我运行此代码时，没有任何例外。 private SparkSession sparkSession; SparkConf sparkConf = new SparkConf(); sparkConf.setMaster(Configuration.getConfig().getString("spark.master")); sparkConf.set("spark.mongodb.input.uri",

浏览 9提问于2017-09-12得票数 1

1回答

使用SSL的PySpark和Kafka

、、

使用SSL连接到Kafka集群的Python (pyspark)的正确语法是什么？我有一个包含SSL的本地kafka集群(用于测试目的)。我能够将Scala与本地集群连接起来，但还不能连接PySpark。到目前为止，我有： kafkaBrokers = "localhost:9093" schemaRegistryUrl = "https://registry:8081/" inputTopic = "test.spark" df = spark.readStream.format("kafka").option("k

浏览 0提问于2018-04-19得票数 0

1回答

如何收集流数据集(到Scala值)？

、

如何将dataframe值存储到scala变量？我需要将从下面的dataframe (假设列“时间戳”产生相同的值)的值存储到一个变量，稍后我需要在某个地方使用这个变量。我已经试过了 val spark =SparkSession.builder().appName("micro"). enableHiveSupport().config("hive.exec.dynamic.partition", "true"). config("hive.exec.dynamic.partition.mode",

浏览 0提问于2019-01-08得票数 0

1回答

Apache Bean Spark Runner无法在流模式下工作- java.lang.IllegalAccessException

我有一个在Flink上运行的流束应用程序。当我尝试用EMR (5.30.1)和apache bean (2.23.0和2.24.0)将它切换到spark runner时，我得到了以下错误： Exception in thread "main" java.lang.IllegalAccessException: Class org.apache.spark.sql.streaming.DataStreamReader can not access a member of class org.apache.beam.runners.spark.structuredstreamin

浏览 12提问于2020-10-15得票数 2

1回答

一个流查询使用多少个Kafka用户来执行？

、

我惊讶地看到，Spark只在一个Kafka用户的情况下消耗了Kafka的数据，并且这个用户在驱动程序容器中运行。我很希望看到，Spark创建的消费者数量与主题中的分区数一样多，并且在executor容器中运行这些消费者。例如，我有一个有5个分区的主题事件。我启动了我的Spark结构化流媒体应用程序，它消耗了这个主题，并写到HDFS上的Parquet。该应用程序有5个执行者。当检查由Spark创建的Kafka消费者组时，我发现只有一个消费者负责所有5个分区。此使用者使用驱动程序在机器上运行： kafka-consumer-groups.sh --bootstrap-server localho

浏览 1提问于2018-12-04得票数 11

1回答

如何为结构化查询的不同代码部分指定分区数？

、

我有一个Spark流，类似于： dataFrame .join(anotherDataFrame, columns) .repartition(partitionColumn) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，保存的结果将被格式化为错误的分区。如何在Spark流的不同步骤中更改spark.sql.adaptive.enabled的行为？例如:当只

浏览 0提问于2019-01-28得票数 2