使用Apache Spark捕获更改数据

、

使用Apache Spark解决问题的最佳方法是什么？我的数据集如下- ID, DATE, TIME, VALUE001,2019-01-01, 0020, 150 001,2019-01-

浏览 5提问于2019-09-29得票数 1

回答已采纳

1回答

Spark -如何通过'SparkLauncher‘识别失败的作业

我正在使用Spark 2.0，有时我的工作会因为输入问题而失败。例如，我正在根据日期从S3文件夹读取CSV文件，如果没有当前日期的数据，我的作业就没有什么要处理的，所以它抛出一个异常，如下所示。at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:729) at org.apache.s

浏览 146提问于2016-09-03得票数 8

回答已采纳

1回答

如何保证debezium生成的topic事件顺序，存储在kafka中并发送给spark？

、、、

我在一个变更数据捕获项目中工作。我有一个mysql数据库。我使用debezium捕获所有更改并将其发送给kafka。后来，我读取了Spark的所有信息，并使用jdbc将其发送到Apache Phoenix。我正在使用debezium和一个重路由选项，它只将所有表的更改发送到一个kafka主题。有了这个配置，我确信我可以按顺序阅读spark中独特的kafka主题。但我的问题是:如果

浏览 96提问于2019-05-03得票数 0

1回答

如何利用Apache捕获数据包并分析SDN网络

、、

我需要使用Apache捕获网络中的数据包，然后分析它们。现在，我使用Wireshark来捕获数据包，并在Spark中对它们进行分析。但是，我认为Spark本身具有捕获流数据包的能力。

浏览 3提问于2017-04-30得票数 0

回答已采纳

1回答

连接到本地主机时出错:8060: java.net.ConnectException:连接被拒绝

、、、

我是Apache Spark的新手。我使用以下命令： mvn -e -Dmaven.tomcat.port=8080 tomcat:run exec:java -Dexec.mainClass例如，另一个系统将我的UDP数据作为1;2;3;4.发送到端口8060。我想根据";“来解析它，

浏览 0提问于2015-01-16得票数 0

2回答

用数据库从Azure数据湖读取avro数据--由Azure EventHubs捕获生成的EventHubs失败

、、、、

我正在尝试从Azure数据湖Gen1中读取avro数据，该数据是从Azure EventHubs生成的，Azure事件集线器捕获是在Azure数据库中启用的：rawData = spark.read.format("avro").load(inputdata)rawData.count()org.apa

浏览 3提问于2019-12-01得票数 1

回答已采纳

1回答

无法将数据帧转换为标注点

、、

我的程序使用Spark.ML，我对数据帧使用逻辑回归。然而，我也想使用LogisticRegressionWithLBFGS，所以我想把我的数据帧转换成LabeledPoint。new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs[Double]("label"),org.apache.spark.mllib.linalg.

浏览 6提问于2017-08-25得票数 0

回答已采纳

1回答

每个键的星火聚合事件集，包括它们的更改时间戳

、、、、

浏览 2提问于2020-03-25得票数 0

回答已采纳

1回答

为什么elasticsearch 5.5.0在提交给纱线集群时AbstractMethodError失败了？

、、、

Lorg/apache/spark/sql/SaveMode;Lscala/collection/immutable/Map;Lorg/apache/spark/sql/Dataset;)Lorg/apache(Lorg/apache/spark/sql/SQLContext;Lorg/apac

浏览 1提问于2017-08-04得票数 1

1回答

来自线程[default-akka.actor.default-dispatcher-5]关闭ActorSystem的致命错误

、、

在我的应用程序中，我从cassandra检索数据，并使用akka喷雾提供rest。当我在IDE中运行时，它运行得很好。但是，当我在本地运行Spark submit时，我的机器上出现了如下所示的错误错误默认-akka.actor.default-dispatcher-5来自线程默认的未捕获的致命错误-akka.actor.default-5关闭了org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$1.DDLStrategy(

浏览 3提问于2016-04-05得票数 0

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifierimport org.apache.spark.ml.classification.De

浏览 4提问于2017-05-22得票数 0

1回答

使用Spark或Flink将基于Kafka事件的数据转换为关系星型模式

、、、、

我正在为一个使用MySQL作为其数据存储的应用程序构建分析功能。我们有一个基于微服务的架构，也使用Kafka。我们的用例并不真正需要“实时”分析，但这可能会在以后添加。对于卷和用例，我不认为需要基于Hadoop的系统，但Kafka Connect，Spark和Flink是可能的。可以编写代码来检查每个事件，然后更新事实表，但是考虑到我可能会在事实表中的数据桶上使用15到30分钟的窗口，有没有办法使用Flink、Spark或Kafka流来实现这一点？我需

浏览 0提问于2018-03-23得票数 3

1回答

在Spark* 2.4中从spark-shell写入AVRO*

、、、

Spark 2.4.0 on Java 1.8.0_161 (Scala2.11.12) 运行命令：spark-shell --jars=spark-avro_2.11-2.4.0.jar 目前正在使用小的avro文件处理一些POC，我希望能够读入(单个) AVRO文件，进行更改，然后将其写回。阅读很好：val myAv = spark.read.format("avro").load("myAvFile.avro") 然而，当我尝试写回(甚至在进

浏览 108提问于2019-05-01得票数 0

2回答

使用java将oracle数据库连接到apache* spark时出错*

、、、、

下面是我用来从apache spark java程序连接到oracle本地数据库的代码，但我得到了下面的错误。Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging <versio

浏览 1提问于2017-01-12得票数 1

2回答

为什么火花提交失败与"AnalysisException:卡夫卡不是一个有效的星火SQL数据源“？

、、、

我使用星火2.1.0和Kafka 0.10.2.1。package com.example; import org.apache.spark.api.java.JavaSparkContext; impo

浏览 8提问于2017-06-29得票数 1

回答已采纳

1回答

Spark数据集显示:无法多次捕获输出

、、、

我需要一个方法来将我的数据集显示给我的log4j记录器。我使用的是：void org.apache.spark.sql.Dataset.show(int numRows, boolean truncate)，它只是简单地登录到stdOut。为了捕获stdOut，我做了以下操作(灵感可以在stackoverflow上的其他地方找到)： void myMethod(Dataset<Row> data){ // Save the oldoriginalPrintStrea

浏览 11提问于2021-01-26得票数 1

2回答

无法使用spark读取kafka主题数据

、、、

在我创建的名为"sampleTopic"的主题中，有如下所示的数据其中第一个参数是username，第二个参数是用户经常侦听的song name。现在，我已经使用上面提到的主题名称启动了zookeeper、Kafka server和producer。我已经使用CMD输入了该主题的上述数据。现在，我想阅读spark中的主题，执行一些聚合，并将其写回流中。下面是我的代码：import org.apach

浏览 3提问于2020-05-30得票数 0

回答已采纳

1回答

Py4JJavaError (spark* 1.6.x) ImportError:无法导入名称Pyspark*

、、

我使用的是Apache-Spark (pyspark)，一切运行正常。现在，我正在尝试加载一个可能存在也可能不存在的数据。因此，我正在尝试捕获Py4JJavaError，并尝试导入它，如下所示：ImportError: cannotimport name Py4JJavaError 当我解压缩这个文件时: /usr/local/Cellar/apache-<e

浏览 62提问于2016-07-21得票数 2

回答已采纳

1回答

如何通过scala代码获取Hadoop-spark作业的跟踪URL或捕获spark-submit输出

、

现在，我想像捕获一样捕获跟踪URL，并在我的其他scala项目中使用它。我该怎么做呢？我尝试重定向spark-submit输出，但它似乎不起作用，就像 ./bin/spark-submit --class org.apache.spark.examples.mllib.JavaKMeans --master yarn-cluster --num-executors另外，我尝试使用scala.sys.process.ProcessIO

浏览 1提问于2015-11-05得票数 2

1回答

无法将XMLTYPE数据类型从oracle加载到Spark中

、、、

我有6700万条Oracle记录，其中一些列是XMLType作为数据类型。我的计划是将所有这些记录从Oracle加载到Apache HBase，我使用Spark SQL将加载加载到Apache HBase中。

浏览 2提问于2017-04-08得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark -如何通过'SparkLauncher‘识别失败的作业

如何保证debezium生成的topic事件顺序，存储在kafka中并发送给spark？

如何利用Apache捕获数据包并分析SDN网络

连接到本地主机时出错:8060: java.net.ConnectException:连接被拒绝

用数据库从Azure数据湖读取avro数据--由Azure EventHubs捕获生成的EventHubs失败

无法将数据帧转换为标注点

每个键的星火聚合事件集，包括它们的更改时间戳

为什么elasticsearch 5.5.0在提交给纱线集群时AbstractMethodError失败了？

来自线程[default-akka.actor.default-dispatcher-5]关闭ActorSystem的致命错误

如何与CSV文件中的数据集一起使用决策树？

使用Spark或Flink将基于Kafka事件的数据转换为关系星型模式

在Spark* 2.4中从spark-shell写入AVRO*

使用java将oracle数据库连接到apache* spark时出错*

为什么火花提交失败与"AnalysisException:卡夫卡不是一个有效的星火SQL数据源“？

Spark数据集显示:无法多次捕获输出

无法使用spark读取kafka主题数据

Py4JJavaError (spark* 1.6.x) ImportError:无法导入名称Pyspark*

如何通过scala代码获取Hadoop-spark作业的跟踪URL或捕获spark-submit输出

无法将XMLTYPE数据类型从oracle加载到Spark中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐