Spark结构流的源/目标格式的可用选项_在spark结构化流中写入来自kafka / json数据源的损坏数据 - 腾讯云开发者社区

、、

我对星火检查站持怀疑态度。我有火花流应用程序，我使用以下方法管理检查点n HDFS： val checkpointDirectory = "hdfs://192.168.0.1:8020/markingChecksPoints" df.writeStream .foreachBatch { (batchDF: DataFrame, batchId: Long) => batchDF .write .cassandraFormat( "table&#

浏览 3提问于2019-11-25得票数 1

回答已采纳

1回答

即使在将"auto.offset.reset“设置为”最新“获取错误OffsetOutOfRangeException之后

、、、、

我使用星星之火-SQL2.4.1版本和Kafka 0.10 v。当我试图通过消费者来消费数据的时候。即使在将"auto.offset.reset“设置为”最新“之后，也会出现以下错误 org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {COMPANY_INBOUND-16=168} at org.apache.kafka.clients.consumer.interna

浏览 5提问于2019-11-01得票数 1

2回答

为什么火花提交失败与"AnalysisException:卡夫卡不是一个有效的星火SQL数据源“？

、、、

我使用星火2.1.0和Kafka 0.10.2.1。我编写了一个Spark应用程序，它从Kafka主题读取数据集。守则如下： package com.example; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.Dataset; import

浏览 8提问于2017-06-29得票数 1

回答已采纳

1回答

Spark结构化流中数据流数据的读取模式

、、、、

我是Apache结构化流的新手。我试图从事件集线器( XML格式)读取一些事件，并尝试从嵌套的XML创建新的Spark。我使用中描述的代码示例和批处理模式运行得很完美，但不是在结构化火花流中运行。星星之火的代码块-xml Github库 import com.databricks.spark.xml.functions.from_xml import com.databricks.spark.xml.schema_of_xml import spark.implicits._ val df = ... /// DataFrame with XML in column 'payloa

浏览 4提问于2021-01-21得票数 1

回答已采纳

1回答

在带有Kafka的星火结构流中，火花如何管理多个主题的偏移量

、、、、

考虑一下Spark结构化的流媒体作业，它读取来自Kafka的消息。如果我们已经定义了多个主题，那么代码如何管理每个主题的偏移量？我已经通过了KafkaMicroBatchStream类，无法得到如何如果得到的偏移为不同的主题。 def latestOffset(开始:偏移，readLimit: ReadLimit)：偏移；方法只返回一个偏移量。尝试理解实现，因为我需要编写来自多个RDBMs表的自定义源代码，每个表都有自己的偏移量。该偏移量将仅在RDBMS表中管理。

浏览 2提问于2020-12-07得票数 1

回答已采纳

1回答

如果数据集是流数据集，则无法从Dataset<Row>转换为H2OFrame

、、、

我已经有了一个深度学习模型，我正在尝试对流媒体数据进行评分。为此，我使用星火结构流api.When从kafka读取数据，我尝试将接收到的数据转换为H20Frame，下面是错误：线程“主”org.apache.spark.sql.AnalysisException中的异常:必须使用writeStream.start()执行流源查询；代码样本 Dataset<Row> testData=sparkSession.readStream().schema(testSchema).format("kafka").option("kafka.bootstra

浏览 0提问于2018-04-05得票数 1

1回答

Zeppelin与Spark结构化流传输示例

、、

我正在尝试在Zeppelin中可视化spark结构化的流。我能够使用内存接收器()来实现。但对于大数据量来说，这并不是一个可靠的解决方案。什么是更好的解决方案？示例实现或演示会很有帮助。谢谢, 里尔万

浏览 2提问于2019-10-01得票数 0

1回答

在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

、、

我正在寻找一个包，或者使用redshift作为结构化数据流的源的以前的实现。 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式，您会在读取时出错。例如： Data source io.github

浏览 2提问于2020-11-18得票数 0

2回答

PySpark的Cassandra Sink来自Kafka的结构化流主题

、、、、

我想使用PySpark结构流应用编程接口将结构流数据写入Cassandra。我的数据流如下： REST API -> Kafka ->火花结构流(PySpark) -> Cassandra 源代码和版本如下: Spark版本: 2.4.3 DataStax DSE: 6.7.6-1 初始化spark： spark = SparkSession.builder\ .master("local[*]")\ .appName("Analytics")\ .config("kafka.bootstrap.servers", "

浏览 23提问于2019-11-01得票数 2

4回答

星火结构流查询总是以auto.offset.rest=earliest开始，即使设置了auto.offset.reset=latest

、、、

我有一个奇怪的问题，试图读取数据从卡夫卡使用火花结构化流。我的用例是能够从最大的/最新的偏移量中读取主题。我的阅读吐露： val data = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "some xyz server") .option("subscribe", "sampletopic") .option("auto.offset.reset",

浏览 1提问于2018-02-14得票数 4

1回答

为什么"java.lang.ClassNotFoundException:未能找到数据源: kinesis“与火花流驱动-asl依赖？

、、、

我的设置： scala:2.11.8 spark:2.3.0.cloudera4 我已经在我的.pom文件中添加了以下内容： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kinesis-asl_2.11</artifactId> <version>2.3.0</version> </dependency> 然而，当我运行我的星火流代码来使用来自kinesis的数据时，它会

浏览 2提问于2018-11-29得票数 2

回答已采纳

2回答

星火结构化流中同一数据基/数据集上的多个操作/聚合

、、

我用的是火花2.3.2。我收到了卡夫卡的数据。我必须对同一个数据进行多个聚合()。然后，所有聚合结果将转到相同的数据库(列或表可能被更改)。例如： val kafkaSource = spark.readStream.option("kafka") ... val agg1 = kafkaSource.groupBy().agg ... val agg2 = kafkaSource.groupBy().mapgroupswithstate() ... val agg3 = kafkaSource.groupBy().mapgroupswithstate() ... 但是，当我

浏览 0提问于2019-03-19得票数 2

回答已采纳

2回答

inferSchema=true不适用于csv文件读取n火花结构化流

、、、

我收到了错误信息 java.lang.IllegalArgumentException: Schema must be specified when creating a streaming source DataFrame. If some files already exist in the directory, then depending on the file format you may be able to create a static DataFrame on that directory with 'spark.read.load(directory)' a

浏览 18提问于2021-10-17得票数 4

回答已采纳

4回答

如何创建自定义流数据源？

、

我有一个自定义的火花流读取器，它从WebSocket读取数据。我要试一试星火结构的流媒体。如何在Spark结构化流中创建流数据源？

浏览 13提问于2017-12-02得票数 14

回答已采纳

1回答

无法读取UTF-16文件

、、、、

我正在尝试读取Spark数据帧中UTF-16编码的文件。然而，当我显示我的数据帧的结果时，我在我的结果集中得到了不需要的特殊字符。我尝试了以下方法-使用UTF-16BE： df = spark.read.format('text').option("encoding", 'UTF-16BE').option("charset", 'UTF-16').option('delimiter', "\|").option('header', 'false'

浏览 49提问于2021-03-24得票数 1

回答已采纳

2回答

使用Spark结构化流检索图形信息

、、

星火流为每个执行的应用程序提供了部署的Web (运行应用程序的http://localhost:4040或已完成的应用程序的http://localhost:18080 )中的“流”选项卡，其中可以获得代表应用程序性能的图表，而使用Spark结构化流无法获得更多的图表。在我的例子中，我正在开发一个使用Spark结构化流的流应用程序，它是从Kafka broker读取的，我想获得每秒处理的记录的图表，比如在使用Spark流而不是Spark结构化流时可以获得的记录图，以及其他图形信息。实现这一目标的最佳选择是什么？我正在使用Spark3.0.1(通过吡火花库)，并将我的应用程序部署到一个纱线集群

浏览 1提问于2020-10-01得票数 1

回答已采纳

1回答

如何在Azure数据库中使用JDBC从PostgreSQL中读取表数据？

、、、

我正在尝试使用pyspark读取Azure云订阅中可用的postgreSQL表，但是得到了下面的错误。我知道，当我们使用load函数时，我们也应该包括这个格式。但是由于这个PostgreSQL实例可以在不同的azure订阅中使用，所以我根本无法访问PostgreSQL数据库，如果是这样的话，如何推断模式呢？或者是否有更好的方法从databricks读取数据。 df = spark.read.option("url", "jdbc:postgresql://{hostname}:5432&user={username}&password={xxxxx}&a

浏览 6提问于2020-09-05得票数 0

1回答

Spark摄取路径："Source to Driver to Worker“或"Source to Worker”

当Spark摄取数据时，有没有特定的情况，它必须通过driver，然后从driver到worker？同样的问题也适用于工作人员的直接读取。我想我只是想弄清楚导致这种或另一种方式的条件或情况是什么，以及在每种情况下分区是如何发生的。

浏览 1提问于2017-08-08得票数 0

1回答

Spark Structured Streaming -无需重新读取数据的多个聚合

、

我正在研究将Apache Spark用于一个应用程序。我对使用临时视图和完整SQL查询的结构化流模式特别感兴趣(为了简单和低延迟)。应用程序将需要在单个输入数据流上运行多个(数十个，可能数百个)查询。有没有办法避免Spark重复读取每个查询的输入？

浏览 27提问于2021-01-20得票数 0

回答已采纳

1回答

与RabbitMQ的Spark结构化流媒体集成

、、

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming。有人知道更好的解决方案吗？

浏览 0提问于2018-04-16得票数 0

5回答

如何从Kafka读取XML格式的流数据？

、、、

我正在尝试使用Spark结构化流从Kafka主题读取XML数据。我试着使用Databricks spark-xml包，但是我发现一个错误:这个包不支持流读取。有什么方法可以使用结构化流从Kafka主题中提取XML数据吗？我现在的代码是： df = spark \ .readStream \ .format("kafka") \ .format('com.databricks.spark.xml') \ .options(rowTag="MainElement")\ .option(&

浏览 19提问于2017-09-01得票数 6

回答已采纳

2回答

星火结构流-将静态数据集与流数据集连接起来

、、、、

我使用Spark structured streaming处理从Kafka读取的记录。以下是我想要达到的目标： (a)每条记录都是Tuple2类型的(Timestamp, DeviceId)。 (b)我已经创建了一个静态的Dataset[DeviceId]，它包含了期望在Kafka流中看到的所有有效设备in (类型为DeviceId)的集合。 (c)我需要编写一个Spark structured streaming查询 (i) Groups records by their timestamp into 5-minute windows (ii) For each window, get

浏览 2提问于2017-10-02得票数 15

2回答

Scala DataStreamReader类“format”值成员的选项

、

我对Scala和Spark还不熟悉，但我正在从事"POCing“结构化流的工作，其中一个可用的API类是DataStreamReader，它由下面的示例代码访问： val spark: SparkSession = ... // Read text from socket val socketDF = spark .readStream .format("socket") .option("host", "localhost") .option("port", 9999) .load() .readSt

浏览 1提问于2018-03-09得票数 1

1回答

结构化流如何动态解析kafka的json数据

、、

我正在尝试使用结构化流从Kafka读取数据。从kafka收到的数据采用json格式。我的代码如下所示:在代码中，我使用from_json函数将json转换为dataframe以供进一步处理。 val **schema**: StructType = new StructType() .add("time", LongType) .add(id", LongType) .add("properties",new StructType() .add("$app_version", StringType)

浏览 3提问于2019-10-15得票数 4

回答已采纳

1回答

GCP数据流中的流数据处理支持哪些数据源？

、、、

在阅读了很多关于数据流的内容后，我发现只有PubSub和bigquery是GCP数据流中支持流数据处理的数据源。还支持哪些其他数据源？我是否可以使用数据流完成所有的流任务，这些任务可以使用其他ETL工具，如Spark或Kafka？

浏览 26提问于2020-07-01得票数 0

1回答

火花与卡夫卡流集成

、、、

我想整合星火流和卡夫卡我在用火花。3.0.0 / Kafka_2.12-2.6.0 /火花流-kafka-0-10_2.12-2.4.0.jar 我用下面的绳子启动了火花壳。 `./bin/spark-shell --jars spark-streaming-kafka-0-10_2.12-2.4.0.jar` 我在斯卡拉身上试了一下，如下所示 val ds = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option(

浏览 0提问于2020-09-17得票数 0

回答已采纳

1回答

使用Spark数据集作为基于RDD的作业

、、

Spark有toRDD()方法，但我不明白它如何有用。我们是否可以通过将转换后的源数据集处理为RDD来启动SQL流作业，而不是创建和启动DataStreamWriter？

浏览 2提问于2018-01-14得票数 1

回答已采纳

1回答

用DataFrame实现火花状态流

、、

是否可以将DataFrame用作星火流的状态/ StateSpec？当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等)。我的目标是保持一个固定大小的FIFO缓冲区作为一个StateSpec，每次新的数据流都会被更新。为了与Spark兼容，我想在Spark中实现缓冲区。

浏览 2提问于2018-02-22得票数 1

回答已采纳

1回答

如何在Spark3.0结构化流中使用kafka.group.id和检查点来继续读取重新启动后停止运行的Kafka的内容？

、、、、

基于对Spark3.0，的介绍。应该可以设置"kafka.group.id“来跟踪偏移量。对于我们的用例，如果流火花作业失败并重新启动，我希望避免潜在的数据丢失。基于我之前的问题，我有一种感觉，在Spark3.0中的kafka.group.id是有帮助的东西。但是，我尝试了火花3.0中的设置，如下所示。 package com.example /** * @author ${user.name} */ import scala.math.random import org.apache.spark.sql.SparkSession import org.apache.sp

浏览 2提问于2020-09-22得票数 6

回答已采纳

2回答

火花结构化流-限制？(源性能、不支持的操作、Spark )

、、

我已经开始探索Spark结构化流，以编写一些在此之前一直使用的应用程序。我正试图理解结构化流媒体的局限性，因为我已经开始使用它，但想知道的好处，如果有的话。 Q1。对于结构化流应用程序中的每个接收器，它将独立地从一个源读取(例如。卡夫卡)。意思是说，如果你读到一个主题A，并写到三个地方(如ES，Kafka，S3)，它实际上将设置。这会不会是一种性能下降？因为它需要3个独立的连接，而不是一个(DStream方法) Q2。我知道连接两个流数据集是。如何在两个流上执行计算？如果我有来自主题A的数据和来自主题B的其他数据，是否可以以某种方式对这两者进行计算？ Q3。在Streaming中，有一个

浏览 1提问于2018-05-23得票数 6

回答已采纳

1回答

如何从Amazon加载流数据？

、、、

我使用Spark2.2.0。如何使用pyspark向Amazon流提供火花结构化流？问题试图通过创建自定义接收器来回答非结构化流和scala的问题。火花放电也有类似的可能吗？ spark.readStream \ .format("s3-sqs") \ .option("fileFormat", "json") \ .option("queueUrl", ...) \ .schema(...) \ .load() 根据的要求，接收机可以作为S3-SQS的文件源.不过，只有SQS才能采用一种方法。

浏览 3提问于2017-12-28得票数 15

回答已采纳

1回答

基于事件时间的窗口是否可以与星光流一起使用？

、、、

根据Dataflow模型文件:在大规模、无限制、无序的数据处理中平衡正确性、延迟和成本的实用方法： MillWheel和Spark流都具有足够的可伸缩性、容错性和低延迟性，可以作为合理的基板，但缺乏高层次的编程模型，使得计算事件时会话变得简单。总是这样吗？

浏览 3提问于2019-10-07得票数 0

回答已采纳

2回答

java.lang.NoClassDefFoundError: org/apache/spark/flume/flume/FlumeUtils at SimpleApp.main(SimpleApp.java:61)

、、

对于一个项目需求，我试图用火花示例中的火花构建FlumUtils示例。我能够创建jar文件。但是，在尝试执行时，我得到了以下错误。有人能帮我解决这个问题吗？ Error: application failed with exception java.lang.NoClassDefFoundError: org/apache/spark/streaming/flume/FlumeUtils at SimpleApp.main(SimpleApp.java:61) at sun.reflect.NativeMethodAccessorImpl.invoke0(Nat

浏览 1提问于2015-07-31得票数 1

回答已采纳

1回答

数据库->雪花: SQL编译错误: Stage：'XYZ‘不能是管道定义中的临时阶段

、、、、

我试图将数据库中的流具体化到雪花表中： parsedStream .writeStream .outputMode(“追加”).options(选项) .option("dbtable“、"test_table") .option("streaming_stage”、"test_stage") .option("checkpointLocation“、”/dem-检查点“).format(”雪花“) .start() 选项包含对雪花进行身份验证所需的所有细节，此部分工作。我检查了预先创建的阶段和不存在的阶段，这样Databricks就可以

浏览 3提问于2019-11-07得票数 0

1回答

火花流(火花1.6)与结构化流(Spark2.2)

、、

在Spark2.2中，我使用了使用Kafka的星火流，如下所示： val conf = new SparkConf() .setAppName("Test") .setMaster("local[*]") val sc = new SparkContext(conf) val ssc = new StreamingContext(sc, Seconds(60)) val kafkaParams = Map[String, String]( "metadata.broker.list&

浏览 5提问于2017-12-13得票数 2

回答已采纳

1回答

如何从表中流数据集？

、、

在本地文件系统中，我必须使用spark将数据从SQL服务器表加载到csv。下面是我使用的代码。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;password=PWD;" val jdbcDbTable = "dbo.Table" val jdbcDF = sqlContext.read.format("jdbc"

浏览 5提问于2017-10-18得票数 3

2回答

如何处理HDFS目录中的新文件，一旦它们的编写最终完成？

、、、

在我的场景中，CSV文件一直上传到HDFS。一旦上传了一个新文件，我想使用Spark处理新文件(例如，计算文件中字段的最大值，将文件转换为parquet)。也就是说，在每个输入文件和转换/处理的输出文件之间有一对一的映射。我正在评估星火流，以侦听HDFS目录，然后用Spark处理“流文件”。但是，为了处理整个文件，我需要知道“文件流”何时完成。我想将转换应用于整个文件，以保留文件之间的端到端一对一的映射。我如何才能改变整个文件，而不是它的微批次？据我所知，火花流只能将转换应用到批处理(DStreams映射到RDDs)，而不能立即应用到整个文件(当其有限的流已经完成时)。对吗？如果是

浏览 7提问于2017-06-05得票数 1

回答已采纳

3回答

星火流jdbc在数据出现时读取流-数据源jdbc不支持流读取。

、、、

我正在使用PostGre作为数据库。我希望为每批获取一个表数据，并将其转换为拼花文件并存储到s3中。我试图使用spark和readStream的JDBC连接，如下所示. val jdbcDF = spark.readStream .format("jdbc") .option("url", "jdbc:postgresql://myserver:5432/mydatabase") .option("dbtable", "database.schema.table") .option(

浏览 1提问于2019-07-02得票数 5

1回答

对于spark结构化流式处理Json记录，架构是否为必填项

、、

我正在浏览下面的博客中的spark structured。他首先使用下面的代码创建模式变量。 val cloudTrailSchema = new StructType() .add("Records", ArrayType(new StructType() .add("additionalEventData", StringType) .add("apiVersion", StringType) .add("awsRegion", StringType) 下面是实际的spark代码 val raw

浏览 3提问于2018-03-23得票数 1

1回答

如何用CSV格式编写窗口聚合？

、、

我正在开发一个Spark结构化流应用程序，它可以流csv文件并将它们与静态数据连接起来。我在加入后进行了一些聚合。在以CSV格式将查询结果写入HDFS时，我得到以下错误： 19/01/09 14:00:30 ERROR MicroBatchExecution: Query [id = 830ca987-b55a-4c03-aa13-f71bc57e47ad, runId = 87cdb029-0022-4f1c-b55e-c2443c9f058a] terminated with error java.lang.UnsupportedOperationException: CSV data

浏览 0提问于2019-01-09得票数 1

回答已采纳

2回答

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？

、、、

在我当前的场景中，Nifi收集数据，然后发送给Kafka。然后，任何流媒体引擎都会消耗卡夫卡的数据，并对其进行分析。在这种情况下，我不想在Nifi和流媒体引擎之间使用卡夫卡。因此，我想将数据从Nifi直接发送到流引擎。但是，我不知道一些细节。例如，结构化流；如果我直接将数据从Nifi发送到Spark结构化流，Spark收到了这些数据，但是Spark的节点被关闭了。火花节点中的数据会发生什么变化？( Spark结构化流是否有任何Nifi接收器？)在这种情况下，Spark结构化流的数据保证是什么？例如，；Storm有Nifi Bolt。但是，假设Storm已经收到了Nifi的数据，但是节点被关

浏览 0提问于2019-02-14得票数 0

回答已采纳

1回答

此查询不支持从检查点位置恢复。删除检查点/testmemeory/偏移以重新开始

、、

我已经在Spark中创建了内存中的表，并尝试在失败后重新启动Spark结构化流作业。它得到“此查询不支持从检查点位置恢复。删除检查点/TEST_IN_内存/偏移以重新开始。” 内存接收器中的检查点的概念是什么？有什么办法纠正吗？(我们能动态删除旧的和新的检查点吗？) 我正在使用DataStAX5.1.6集群，所以我没有选择--我必须只使用Spark2.0.2版本。 val kafkaDataFrame_inmemory = spark .readStream .format("kafka") .option("kafka.bootstrap.servers&

浏览 1提问于2019-08-18得票数 3

回答已采纳

3回答

为什么spark-submit找不到kafka数据源，除非使用--packages？

、、、、

我正在尝试将Kafka集成到我的Spark应用程序中，这是我的POM文件所需的条目： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>${spark.stream.kafka.version}</version> </dependency> <dependency&g

浏览 0提问于2017-09-01得票数 4

3回答

火花壳不允许查询结构化流。

、

我正在遵循“火花最终指南”()一书，下面的代码是在本地使用火花壳执行的过程:在没有任何其他选项的情况下启动火花壳。 val static = spark.read.json("/part-00079-tid-730451297822678341-1dda7027-2071-4d73-a0e2-7fb6a91e1d1f-0-c000.json") val dataSchema = static.schema val streaming = spark.readStream.schema(dataSchema) .option("maxFilesPerTrigger

浏览 0提问于2018-07-27得票数 3

2回答

架构漂移未按预期工作Azure DF (2种不同架构格式的多个文件)

、

目标:我们有两个具有不同模式格式的样本数据集。我们的目标是使用单个管道加载源代码中存在的不同模式格式的文件，因为我们不可能根据它们的模式来分离源文件。数据被加载到具有附加结构的数据库中。我们已经在Azure数据工厂中创建了一个管道，它连接到源，并使用派生列转换加载源中存在的所有csv。源和接收器都启用了架构漂移，并且在派生的列转换中使用了列模式。问题:如果源文件中只有A类型或S类型的文件，但如果两个文件混合在一起，则管道工作正常，并正确映射目标列，则目标表上的映射不会正确发生。当源文件中有两个不同的源文件混合在一起时，模式漂移不起作用。下面是用表结构定义的模式格式。方案A格式:文件名、Co

浏览 0提问于2020-11-26得票数 0

1回答

StreamingQueryException：‘描述Streams\n===流查询时出错

、、

我在运行无法连接到Kinesis数据源的胶水流式作业时遇到以下错误：错误： WARNING:root:StreamingQueryException caught. Retry number 10 ERROR:root:Exceeded maximuim number of retries in streaming interval, exception thrown Parse yarn logs get error message: StreamingQueryException: 'Error while Describe Streams\n=== Streaming Q

浏览 0提问于2020-09-08得票数 0

1回答

如何将火花数据写入动态流？

、、、、

我正在创建一个Dataframe从一个卡夫卡主题使用火花流。我想把“Dataframe”写成一位动作制作人。据我所知，目前还没有官方的API。但互联网上有多种API，但遗憾的是，它们都不适合我。火花版本: 2.2 Scala : 2.11 我尝试使用并构建jar。但是由于这个jar和spark之间的包名相互冲突而导致的错误。请帮帮忙。 ###########这里是其他人的代码： spark-shell --jars spark-sql-kinesis_2.11-2.2.0.jar,spark-sql-kafka-0-10_2.11-2.1.0.jar,spark-streaming-kafka

浏览 0提问于2019-07-08得票数 2

回答已采纳

1回答

星火的分区剪枝和谓词下推有什么区别？

我正在研究星火优化方法，并遇到了实现优化的各种方法。但有两个名字引起了我的注意。分区剪枝谓词下推他们说：分区修剪： Spark是一种性能优化，它限制查询时读取的文件和分区的数量。在对数据进行分区之后，匹配某些分区筛选条件的查询通过允许Spark只读取目录和文件的子集来提高性能。谓词下推：火花将尝试将数据过滤尽可能靠近源，以避免将不必要的数据加载到内存中。Parquet和ORC文件在不同的数据块(如min和max值)中维护关于每一列的各种状态。读取这些文件的程序可以使用这些索引来确定是否需要读取某些块，甚至整个文件。这允许程序在处理过程中跳过大量的数据。通过读取上述概念，它们似乎

浏览 1提问于2020-03-10得票数 3

1回答

火花结构化流与Neo4j

、

我的目标是使用Spark结构化流将转换后的数据从MongoDB集合写入Neo4j。根据Neo4j文档，这在"“版本4.1.2中是可能的。到目前为止，批处理查询工作正常。但是，通过下面的示例，我遇到了一条错误消息： spark-shell --packages org.mongodb.spark:mongo-spark-connector:10.0.2,org.neo4j:neo4j-connector-apache-spark_2.12:4.1.2_for_spark_3 val dfTxn = spark.readStream.format("mongodb") .

浏览 17提问于2022-06-27得票数 0

1回答

以Kafka为源的结构化流中的JSON模式推理

、

我目前正在使用从Kafka主题中读取json数据。json作为字符串存储在主题中。为了实现这一点，我提供了一个硬编码的JSON模式作为StructType。我正在寻找一种在流过程中动态推断主题模式的好方法。这是我的代码：(这是Kotlin，而不是通常使用的Scala) spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "kafka:9092") .option("subscribe", "my_t

浏览 2提问于2020-10-21得票数 1

回答已采纳