使用HBase接收器的Spark结构化流媒体

、、、

我有一个可以收听Kafka主题的Spark流媒体应用程序。当获得数据时，我需要对其进行处理，并将其发送到Kudu。目前，我正在使用org.apache.kudu.spark.kudu.KuduContext API，并对数据框调用插入操作。为了从我的数据创建数据框，我需要调用collect()，以便可以使用sqlContext创建数据框。有没有一种方法可以在不调用collect()的情况下创建数据帧/将数据插入到Kudu中？我们使用

浏览 7提问于2018-08-08得票数 1

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.forma

浏览 15提问于2019-11-09得票数 2

1回答

Spark流媒体与结构化流媒体

、、

在过去的几个月里，我使用了相当多的结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache Spark进行流处理”一书后，我有了这样一个问题:有没有什么要点或用例可以让我使用Spark流而不是结构化流？我是不是应该花点时间去了解它，或者既然我已经在使用Spark Structured Streaming了，我应该坚持<e

浏览 17提问于2020-04-06得票数 2

2回答

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？

、、、

在我当前的场景中，Nifi收集数据，然后发送给Kafka。然后，任何流媒体引擎都会消耗卡夫卡的数据，并对其进行分析。在这种情况下，我不想在Nifi和流媒体引擎之间使用卡夫卡。例如，结构化流；如果我直接将数据从Nifi发送到Spark结构化流，Spark收到了这些数据，但是Spark的节点被关闭了。火花节点中的数据会发生什么变化？( Spark结构化</em

浏览 0提问于2019-02-14得票数 0

回答已采纳

1回答

、、

我的用例是使用结构化流读取Kafka消息，并使用foreachBatch通过使用一些批量Put将这些消息推送到HBase中。为了获得比单个Put更高的性能，我可以使用foreach推送消息(感谢Spark Structured Streaming with Hbase integration)，但不能对foreachBatch操作执行同样的操作。import org.apache.hadoop.<e

浏览 19提问于2020-07-02得票数 0

1回答

用谷歌PubSub实现Apache Spark的结构化流媒体

、、

我正在使用Spark Dstream从谷歌PubSub中提取和处理数据。我正在寻找一种方法来转移到结构化流媒体，但仍然使用发布/订阅。另外，我应该提一下，我的消息在Pub/Sub中压缩得很快。我发现了this问题，它声称不支持使用带有结构化流的发布/订阅。是不是有人遇到过这个问题？是否可以实现自定义接收器以从发布/订阅中读取数据谢谢

浏览 34提问于2019-05-03得票数 2

回答已采纳

1回答

查找关于火花DStream到镶嵌面板文件的性能提示

、、

我想将Elasticsearch索引存储到HDFS文件中，而不是使用ES-Hadoop连接器。建议的解决方案是使用流式定制接收器读取并保存为拼图文件，并且代码如下所示， JavaDStream<String> jsonDocs = ssc.union(dsList.get(0), dsList.subList().json(spark.createDataset(rdd.rdd(), Encoders.STRING())); ds.write().mode(SaveMode.Appen

浏览 28提问于2019-04-02得票数 1

2回答

Spark Structured Kafka偏移管理

、、、

我正在研究在kafka中存储kafka偏移量用于Spark结构化流媒体，就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样，与我正在寻找的相同，但用于结构化流媒体。它是否支持结构化流媒体？如果是，我如何实现它？我知道使用.option("checkpointLocation", checkpointLocati

浏览 10提问于2019-05-16得票数 3

1回答

如何将spark结构化流数据写入REST API？

、

我想将我的spark结构化流式处理数据推送到REST API。有没有人可以分享一下相同的例子。我发现很少，但所有都与spark流媒体有关，而不是结构化流媒体。

浏览 14提问于2019-01-18得票数 1

2回答

5分钟Spark批处理作业与流作业

、

我正在试着找出什么是更好的方法。我有一个火花批处理作业，这是计划运行每5分钟，它需要2-3分钟来执行。由于已经添加了对动态分配spark.streaming.dynamicAllocation.enabled的支持，将其设置为每5分钟从源拉取数据的流式作业是一个好主意吗？

浏览 0提问于2019-07-24得票数 0

1回答

从Spark* 2.2到2.3的结构化流媒体有什么不同？*

我在Spark 2.3的发布说明中看到了结构化流媒体的公告/揭幕，但我知道它已经存在了一段时间了。由于一些依赖，我需要在系统实现中使用Spark 2.2，但我也想开始将面向批处理的工作转移到流范例中。在没有Spark 2.3的过程中，我是否遗漏了什么重要的东西，或者这仅仅是结构化流媒体成为“官方”而不是实验性的发行版？

浏览 13提问于2018-07-25得票数 0

3回答

HBASE火花与HDFS火花

、、、

我知道HBASE是一个柱状数据库，它将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读/写，还有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题： 1)在HBASE之上分层火花而不是单独使用HBASE所带来的附加功能是什么？它只取决于程序员的能力，或者有任何性能原因来这样做？是否有星火所能做的</

浏览 4提问于2016-08-13得票数 9

回答已采纳

1回答

Spark结构化流媒体中的滞后函数

、

我正在使用Spark 2.3结构化流媒体，并尝试使用“lag”功能。但是，看起来在结构化流中不支持lag。val output = spark.sql("SELECT temperature, time, lag(temperature, 1) OVER (ORDER BY time) AS PrevTempFROM InputTable")org.apache.spark.sql.AnalysisException

浏览 13提问于2018-07-21得票数 2

1回答

如何通过spark结构流在Kafka中以编程方式创建主题

、、

我想在我的Spark结构化流媒体应用程序中创建多个kafka主题运行时。我发现Java API中有各种可用的方法。但我找不到任何有Spark结构的流媒体。如果有什么方法可以使用或者我需要使用java库，请告诉我。我的apache Spark版本是2.4.4，Kafka库依赖是spark-sql-kafka-0-10_2.12

浏览 17提问于2019-11-28得票数 0

1回答

在Spark* 2.1的Spark-kafka集成中，有多少个执行者被指派去听一个kafka话题？*

、、

我有一个Spark集群，总共有17个executors。我已经将Spark 2.1与Kafka集成在一起，并从topic中读取数据，例如： .readStream .options(kafka.bootstrap.servers","localhost:9092") .load 现在我想知道，当我以集群模式提交

浏览 0提问于2018-09-05得票数 2

2回答

如何对Spark结构化流媒体进行单元测试？

、、

我想了解一下Spark Structured Streaming的单元测试方面。我的场景是，我从Kafka获取数据，并使用Spark Structured Streaming使用它，并在数据上应用一些转换。我不确定如何使用Scala和Spark来测试它。有人能告诉我如何使用Scala在结构化流媒体中进行单元测试吗？我还是个流媒体新手。

浏览 3提问于2019-07-05得票数 2

1回答

Kappa体系结构:当插入到批/分析服务层时

、、、、

如您所知，Kappa架构是Lambda体系结构的某种简化。Kappa不需要批处理层，而是速度层必须保证历史数据重计算的计算精度和足够的吞吐量(更多的并行性/资源)。例如，年龄<2周的数据存储在Redis (流服务层)，而所有旧数据存储在HBase (批处理服务层)的某个地方。什么时候(由于Kappa架构)我必须插入数据到批处理服务层？例如:假设数据的来源是Kafka，数据是由Spark结构化流或Fl

浏览 7提问于2019-10-15得票数 7

回答已采纳

1回答

如何在Spark* Streaming 2.3.1中将每条记录写入多个kafka主题？*

、、

如何在Spark Streaming 2.3.1中将每条记录写入多个kafka主题？换句话说，我有5条记录和两个输出kafka主题，我希望在两个输出主题中都有5条记录。问题没有谈到结构化的流媒体案例。我正在寻找结构化流媒体的具体。

浏览 16提问于2018-07-23得票数 1

1回答

Spark Streaming xml文件

、、

首先，使用Spark的fileStream读取文件对Dataframe进行一些处理并另存为JSON loaddata.write.mode有没有更好<

浏览 0提问于2016-11-18得票数 2

3回答

Pyspark结构化流Kafka配置错误

、、、、

我之前已经成功地使用了pyspark for Spark Streaming (Spark 2.0.2)和Kafka (0.10.1.0)，但我的目的更适合于结构化流媒体。我尝试在线使用示例：ds1 = spark .format("kafka").option("p

浏览 2提问于2017-07-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Spark streaming将数据从Kafka插入到Kudu

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

Spark流媒体与结构化流媒体

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？