Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

Spark Streaming是Apache Spark的一个组件，它提供了实时数据处理和流式计算的能力。通过Spark Streaming，可以从各种数据源（如HDFS、Kafka、Flume等）读取数据，并将处理后的结果写入到各种目的地（如HDFS、数据库等）。

Spark Streaming的工作原理是将实时数据流划分为一系列小的批次（batch），然后将每个批次作为RDD（弹性分布式数据集）进行处理。这种批次处理的方式使得Spark Streaming能够以低延迟处理实时数据，并且具备高容错性和可伸缩性。

Spark Streaming的优势包括：

高吞吐量和低延迟：Spark Streaming能够以毫秒级的延迟处理实时数据，适用于对实时性要求较高的场景。
强大的数据处理能力：Spark Streaming提供了丰富的数据处理操作，如map、reduce、join等，可以进行复杂的数据转换和计算。
容错性和可伸缩性：Spark Streaming具备容错性，能够自动恢复故障，并且可以根据数据量的增长进行水平扩展。
与Spark生态系统的无缝集成：Spark Streaming与Spark的其他组件（如Spark SQL、MLlib等）紧密集成，可以方便地进行数据分析和机器学习等操作。

对于将数据从一个HDFS目录读取并写入到另一个HDFS目录的场景，可以使用Spark Streaming的HDFS数据源和HDFS数据接收器。具体操作如下：

创建Spark Streaming上下文：

val conf = new SparkConf().setAppName("SparkStreamingExample")
val ssc = new StreamingContext(conf, Seconds(1))

创建HDFS数据源：

val inputDStream = ssc.textFileStream("hdfs://input_directory")

进行数据处理和转换：

val processedDStream = inputDStream.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

创建HDFS数据接收器：

processedDStream.saveAsTextFiles("hdfs://output_directory")

在上述代码中，通过textFileStream方法创建了一个HDFS数据源，将输入目录中的文件作为数据流进行处理。然后使用flatMap、map和reduceByKey等操作对数据进行处理和转换。最后，使用saveAsTextFiles方法将处理后的结果保存到输出目录中。

腾讯云提供了与Spark Streaming相关的产品和服务，例如Tencent Spark Streaming，详情请参考：Tencent Spark Streaming

注意：本答案中没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商，如需了解更多相关产品和服务，建议参考官方文档或咨询相关厂商。

如何使用scala使用spark streaming从HBASE表中获取数据

、、、

我正在尝试确定一种解决方案，使用火花流从HBASE表中读取数据，并将数据写入另一个HBASE表。我在互联网上找到了许多示例，它们要求创建一个DSTREAM来从HDFS文件和all.But中获取数据。我找不到任何示例来从HBASE表中获取数据。例如，如果我有一个HBASE表'SAMPLE‘，它的列是'name’和'activeStatus‘。如何使用spark streaming从基于activeStatus列的表SAMPLE中检索数据(新数据？欢迎使用spark streaming从HBASE表检索数据的任何示例。致敬，Adarsh K S

浏览 0提问于2018-12-11得票数 0

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件 scala> sc.stop() scala> import org.apache.spark.SparkConf scala> import org.apache.spark.streaming scala> import org.apache.spark.streaming.{StreamingContext,Seconds} scala&

浏览 12提问于2018-12-21得票数 1

回答已采纳

4回答

来自Kafka的Spark流，并以Avro格式写入HDFS

、、、、

我基本上是想使用Kafka中的数据，并将其写入HDFS。但是发生的情况是，它没有在hdfs中写入任何文件。它会创建空文件。也请指导我，如果我想在hdfs中写avro格式，我可以如何修改代码。为了简单起见，我写入本地C驱动器。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkContext import org.apache.spark.streaming.Seconds import o

浏览 4提问于2017-10-08得票数 0

1回答

使用spark streaming将每个Kafka消息保存在hdfs中

、、、

我正在使用spark streaming进行分析。经过分析，我必须将kafka消息保存在hdfs中。每条kafka消息都是一个xml文件。我不能使用rdd.saveAsTextFile，因为它会保存整个rdd。rdd的每个元素都是kafka消息( xml文件)。如何使用spark在hdfs中保存每个rdd元素(文件)。

浏览 0提问于2018-02-16得票数 0

1回答

如何从Spark Streaming脚本写入HDFS

、

我正在执行一个Spark Streaming应用程序，我想将一些结果转储到HDFS中，这些结果不是RDD形式的，它们是简单的字符串。那么，我如何将这些数据转储到HDFS，如果有一种方法可以将这些数据附加到文件中，这将非常有帮助。

浏览 20提问于2017-07-19得票数 0

2回答

Spark连接Hive到HDFS vs Spark直接连接HDFS，Hive在上面吗？

、、、、

问题摘要：我有一个固定的使用案例，每天通过spark streaming将超过10 to的数据写入HDFS。我们目前正处于设计阶段。我们希望使用spark streaming将数据写入HDFS (约束)。数据是分栏式的。我们有两个选项(到目前为止)：当然，我希望使用配置单元上下文将数据馈送到HDFS。定义了模式，并按批或按行馈送数据。还有另一种选择。我们可以直接将数据写入HDFS，这要归功于spark streaming API。我们也在考虑这一点，因为我们可以在这个用例中通过hive从HDFS查询数据。这将为将来可能出现的新用例留下使用其他技术的选择余地。什么是最好的？ Spark

浏览 0提问于2019-06-19得票数 1

1回答

将输出火花写入到输入目录

、

最近，我遇到了一个场景，需要从一个目录读取来自HDFS的输入。 /user/project/jsonFile 并将结果写回同一个目录： /user/project/jsonFile 读取jsonFile之后，将执行多个联接，并使用以下方法将结果写入/user/project/jsonFile： result.write().mode(SaveMode.Overwrite).json("/user/project/jsonFile"); 下面是我看到的错误： [task-result-getter-0]o.a.s.s.TaskSetManager: Lost task 10.

浏览 2提问于2021-11-16得票数 1

回答已采纳

3回答

Spark structured streaming Elasticsearch集成问题。数据源es不支持流式写入

、

我正在编写一个Spark结构的流媒体应用程序，其中使用Spark处理的数据需要沉没到弹性搜索。这是我的开发环境，因此我有一个独立的Elastic search。我尝试了以下两种方法将DataSet中的数据汇聚到ES中。 1.ds.writeStream().format("org.elasticsearch.spark.sql").start("spark/orders"); 2.ds.writeStream().format("es").start("spark/orders"); 在这两种情况下，我都会得到以下错误：由以

浏览 1提问于2017-09-26得票数 3

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

、、

一个关于星火结构流与HIVE表集成的查询。我试着做了一些火花结构化流的例子。这是我的例子 val spark =SparkSession.builder().appName("StatsAnalyzer") .enableHiveSupport() .config("hive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode", "nonstrict") .config(

浏览 0提问于2018-12-28得票数 13

2回答

拒绝权限:在AWS集群中使用user=zeppelin解释器时

、、、、

我已经创建了吡咯烷酮结构化流媒体程序，并试图在齐柏林飞艇笔记本上执行： %spark.pyspark query_window = windowedCounts \ .writeStream \ .outputMode("complete") \ .format("memory") \ .queryName("myTable_window") \ .start()

浏览 5提问于2017-05-28得票数 8

1回答

星星之火结构化流:：意外错误：：STATUS_INVALID_HANDLE与path=“

、、、、

我已经在Hortonworks (2.6.4)上构建了流作业(2.6.4)，在此我正在读取kafka主题的消息，在模式验证流作业将这些消息存储到HBASE & HIVE之后。执行6-7小时后，作业因STATUS_INVALID_HANDLE而死亡。如果我删除蜂巢的细节，在这个过程中没有这样的例外。下面提到的路径在HDFS中已经存在。对解决这个问题有什么帮助吗?? Caused by: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Unexpected error: STATUS_INVALID_HA

浏览 2提问于2020-08-21得票数 1

1回答

如何将DataFrame持久化到Hive表？

、、、

我在Cloudera QuickStart VM上使用QuickStart。我按照另一个问题创建了一个sbt管理的Spark应用程序。 build.sbt libraryDependencies += "org.apache.spark" %% "spark-core" % "1.5.2" libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.5.2" libraryDependencies += "org.apa

浏览 1提问于2016-12-25得票数 0

回答已采纳

1回答

Spark structured streaming -联合两个或多个流媒体源

、、、

我使用的是spark 2.3.2，在对来自Kafka的2个或更多流媒体资源进行联合时遇到了一个问题。这些都是来自Kafka的流媒体源，我已经将它们转换并存储在Dataframes中。理想情况下，我希望将此UNIONed数据帧的结果以parquet格式存储在HDFS中，甚至可能存储回Kafka中。最终目标是以尽可能低的延迟存储这些合并的事件。 val finalDF = flatDF1 .union(flatDF2) .union(flatDF3) val query = finalDF.writeStream .format("parquet&

浏览 52提问于2019-07-02得票数 1

回答已采纳

2回答

如何在Zeppelin中添加eventhub jar或库文件？

尝试以下操作时： import org.apache.spark.streaming.eventhubs.EventHubsUtils 我得到了一个错误： object eventhubs is not a member of package org.apache.spark.streaming 我尝试使用下面的命令添加jar文件spark-streaming_2.10-1.5.1.jar： z.load("/jars/spark-streaming_2.10-1.5.1.jar") 我的jar文件放在jar文件夹下的hdfs文件夹中。

浏览 0提问于2016-08-25得票数 1

5回答

如何在spark中使用parquet读写相同的文件？

、、

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： couldnt write parquet to file: An error occurred while calling o102.parquet. : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: TungstenExchange hashpartitioning(billID#42,200), None +- Union :-

浏览 0提问于2016-05-06得票数 8

1回答

可以在没有HDFS的情况下使用Spark Structured吗？

我经常使用HDFS和Kafka，我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming，我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么，有没有可能在没有HDFS的情况下使用spark structured？奇怪的是，我们只能在Kafka中将HDFS用于流数据。或者，有没有可能告诉斯帕克忘记ChekpPointing并在程序中管理它？ Spark 2.4.7 谢谢

浏览 39提问于2021-05-07得票数 2

5回答

Apache (结构化流)：S3检查点支持

、

根据星星之火结构化流文档：“此检查点位置必须是HDFS兼容的文件系统中的路径，并且可以在启动查询时设置为DataStreamWriter中的选项。” 当然，将检查点设置为s3路径会抛出： 17/01/31 21:23:56 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints/metadata, expected: hdfs://xxxx:8020 java.lang.IllegalArgumen

浏览 8提问于2017-02-02得票数 9

回答已采纳

2回答

结构化流传输将Parquet文件写入Hadoop

、

我能够将结构化流式传输的结果写入到拼图文件中。问题是这些文件在本地文件系统中，现在我想将它们写入Hadoop文件系统。有没有办法做到这一点？ StreamingQuery query = result //.orderBy("window") .repartition(1) .writeStream() .outputMode(OutputMode.Append()) .format("parquet") .option("checkp

浏览 9提问于2017-03-01得票数 1

回答已采纳

1回答

火花写入数据给vertica带来错误

、、、

我尝试使用以下文档向vertica编写数据文件: vertica提供的，它成功了。在加载所需的库之后，dataframe将被写入表中。现在，当我试图在Intellij中执行相同的精确代码时，或者没有直接从火花外壳编写代码时，它会出现一些错误：守则是： val rows: RDD[Row] = sc.parallelize(Array( Row(1,"hello", true), Row(2,"goodbye", false) )) val schema = StructType(Array( Struct

浏览 4提问于2020-04-26得票数 1

回答已采纳

1回答

如何监视火花流任务中的多个目录

、

我希望在火花流中使用fileStream来监视多个hdfs目录，例如： val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat]("/user/root/*/*", check_valid_file(_), false).map(_._2.toString).print 买的方式，我不能在三个类别的含义: LongWritable，文本，TextInputFormat 但不管用..。 java.io.FileNotFoundException: File /user/roo

浏览 1提问于2015-05-13得票数 0

1回答

从流式kafka检查点ClassNotFoundException恢复

我使用spark-streaming-kafka检查点将处理后的Kafka偏移量存储到HDFS中的文件夹中，在重启应用程序(使用spark-submit)以检查恢复后，我在一个属于spark-streaming-kafka模块的类上获得了一个ClassNotFoundException，并将其打包到我的应用程序uber jar中。在我的应用程序jar中似乎没有查找到这个类。使用v1.5.1 15/12/02 15:42:30 INFO streaming.CheckpointReader: Attempting to load checkpoint from file hdfs://ip-x

浏览 1提问于2015-12-03得票数 1

1回答

火花结构流失败双到检查点文件找不到

、、

我正在测试env上运行火花结构化流。有时，找不到某个检查点文件的作业失败。其中一个原因可能是卡夫卡的主题保留时间很短。但我已经将.option("failOnDataLoss", "false")添加到SparkSession中了。我对火花检查点有一些基本的(非常基本的)理解。如果删除检查点dir，我认为应该恢复它。但是，正如我测试的那样，一旦发生了这个错误，删除dir就没有帮助了。我需要使用不同的检查点dir来修复它。为什么删除检查点dir不起作用？或者是否有一种方法/选项可以帮助避免此错误？ diagnostics: User class t

浏览 0提问于2018-02-02得票数 8

1回答

如何将星火结构流检查点dir设置为windows本地目录？

、、

我的操作系统是Windows 11，Apache版本是spark-3.1.3-bin-hadoop3.2 我尝试使用火花结构化流与火星雨。Belows是我简单的星星之火结构的流代码。 spark = SparkSession.builder.master("local[*]").appName(appName).getOrCreate() spark.sparkContext.setCheckpointDir("/C:/tmp") 在Ubuntu22.04上，没有spark.sparkContext.setCheckpointDir行的同样的火花代码不会抛出错误

浏览 5提问于2022-08-14得票数 -1

1回答

如何在遗留火花流中使用foreachRDD

、

在使用foreachRDD进行CSV数据处理时，我得到了异常。这是我的密码 case class Person(name: String, age: Long) val conf = new SparkConf() conf.setMaster("local[*]") conf.setAppName("CassandraExample").set("spark.driver.allowMultipleContexts", "true") val ssc = new StreamingContext(conf,

浏览 0提问于2019-01-03得票数 0

回答已采纳

1回答

无法禁用Apache Spark writeAheadLogs

我设置了spark.streaming.receiver.writeAheadLog.enable=false，我的历史服务器确认属性已经设置。然而，我仍然看到这个错误： 16/11/28 15:47:04 ERROR util.FileBasedWriteAheadLog_ReceivedBlockTracker: Failed to write to write ahead log after 3 failures 我从spark users线程中推测，必须启用HDFS append支持才能让WAL与HDFS一起工作。我的安装没有启用这个HDFS功能，所以我想在Spark中禁用WAL。

浏览 1提问于2016-11-29得票数 0

1回答

Flume+Spark -在HDFS中存储DStream

、、

我有水槽流，我想把它存储在HDFS通过火花。下面是我正在运行的火花代码 object FlumePull { def main(args: Array[String]) { if (args.length < 2) { System.err.println( "Usage: FlumePollingEventCount <host> <port>") System.exit(1) } val batchInterval = Milliseconds(60000) val

浏览 3提问于2016-04-01得票数 2

回答已采纳

1回答

火花错误: I/O错误构建远程块读取器。java.nio.channels.ClosedByInterruptException at java.nio.channels.ClosedByInterruptException

、、、

在单元测试中，执行在本地是正常的，但是当星火流执行被传播到真正的集群执行程序时失败，就像它们静默崩溃一样，并且不再适用于上下文： stream execution thread for kafkaDataGeneratorInactiveESP_02/Distance [id = 438f45a0-acd6-4729-953f-5a18ae208f1f, runId = a98c6d39-fe14-4ed5-b7fe-7e4009de51b2]] impl.BlockReaderFactory (BlockReaderFactory.java:getRemoteBlockReaderFromT

浏览 5提问于2021-11-29得票数 0

回答已采纳

1回答

如何在Dataproc中释放数据块池使用的空间

、、

我已经启动了一个从kafka.I流式传输数据的spark streaming作业。我只分配了2个工作节点，15 95磁盘，testing.Within 2小时。磁盘已满，并且这些节点的状态在YARN资源管理器web界面上显示为不健康，并且我检查了HDFS web界面，显示数据块池使用了95%的磁盘空间。问题是我没有在节点上存储任何数据，只是从kafka读取，处理并存储到MongoDB。

浏览 12提问于2020-05-14得票数 2

1回答

Spark Streaming清理RDD检查点目录

、、

我们有来自kafka的spark streaming在HDFS服务器中创建检查点，但它没有得到清理，现在我们在HDFS中有数百万个检查点。有没有办法从spark中自动清除它？ Spark版本1.6 HDFS 2.70

浏览 8提问于2017-07-19得票数 3

回答已采纳

1回答

如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

、、

我正在尝试从Kafka读取JSON消息，并使用spark structured将它们存储在HDFS中。我遵循了示例，当我的代码如下所示时： df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers", "host1:port1,host2:port2") \ .option("subscribe", "topic1") \ .load() df.selectExpr("CAST(key AS STR

浏览 43提问于2018-07-25得票数 1

2回答

为什么Google Dataproc HDFS名称节点在Safemode中？

、、、

我试图通过向Dataproc集群提交一个Spark作业来写入hdfs:///home/bryan/test_file/上的HDFS目录。我得到一个错误，名称节点是在安全模式。我有让它脱离安全模式，但我担心这可能是因为另一个原因。为什么Dataproc集群处于安全模式？ ERROR org.apache.spark.streaming.scheduler.JobScheduler: Error running job streaming job 1443726448000 ms.0 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop

浏览 7提问于2015-10-01得票数 3

1回答

火花流:如何编写累积输出？

、、、

我必须为我的流作业编写一个输出文件。问:我的工作什么时候才能真正停止？我杀了服务器，但没有工作。我想从命令行停止我的工作(如果可能的话) 代码： import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.streaming.dstream import org.apache.spark.streaming.Duration import org.apache

浏览 2提问于2017-04-13得票数 0

回答已采纳

1回答

如何在星火流上创建停止条件？

、、、、

我想使用火花流从HDFS读取数据。这个想法是，另一个程序将继续上传新的文件到HDFS目录，我的星火流工作将处理这个目录。然而，我也想有一个结束的条件。也就是说，将文件上传到HDFS的程序可以向星火流程序发出信号，即它完成了对所有文件的上传。对于一个简单的例子，请从获取该程序。代码如下所示。假设另一个程序正在上传这些文件，那么该程序(不需要我们按下CTRL+C)如何以程序的方式向火花流程序发送结束条件呢？ import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext}

浏览 0提问于2017-10-09得票数 3

回答已采纳

3回答

HBASE火花与HDFS火花

、、、

我知道HBASE是一个柱状数据库，它将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读/写，还有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题： 1)在HBASE之上分层火花而不是单独使用HBASE所带来的附加功能是什么？它只取决于程序员的能力，或者有任何性能原因来这样做？是否有星火所能做的事，而HBASE却无法做到？ 2)源于前面的问题，什么时候应该在HDFS和SPARK之间添加HBASE，而不是直接使用HDFS？

浏览 4提问于2016-08-13得票数 9

回答已采纳

2回答

星火Sql -插入到外部蜂巢表错误

、、、

我试图通过spark将数据插入到外部单元表中。我的蜂箱桌子是通过一根柱子装的。创建外部单元表的查询如下 create external table tab1 ( col1 type,col2 type,col3 type) clustered by (col1,col2) sorted by (col1) into 8 buckets stored as parquet 现在，我尝试将数据从一个拼花文件(存储在hdfs中)存储到表中。这是我的密码 SparkSession session = SparkSession.builder().appName("ParquetRead

浏览 0提问于2018-10-04得票数 0

1回答

在spark streaming程序中建立线程池

、

为了避免延迟和加快进程，我在spark流中构建了线程池。主程序列表如下： stream.foreachRDD(rdd=> { rdd.foreachPartition { rddPartition => { val client: Client = ESClient.getInstance.getClient var num = Random.nextInt() val threadPool: ExecutorService = Executors.newFixedThreadPool(5) val confs = new Configurati

浏览 0提问于2017-11-12得票数 1

2回答

火花流抛出FileNotFoundException

、

集群模式下的星火流正在抛出FileNotFoundException和linux文件系统(GFS -跨所有节点共享文件系统)，但是在HDFS作为输入时工作得很好。在此路径上，所有工作节点上的数据实际上是可用的和可访问的。 JavaPairInputDStream<Text, Text> myDStream = jssc.fileStream(path, Text.class, Text.class, customInputFormat.class, new Function<Path, Boolean>() { @Override pu

浏览 0提问于2015-06-03得票数 1

回答已采纳

1回答

spark streaming checkpoint占用多少空间？

我是Spark Streaming的新手，对检查点中存储的checkpoint.Is流数据知之甚少？数据是存储在hdfs中还是存储在内存中?需要多少空间？

浏览 1提问于2021-01-13得票数 0

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html 然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[.parquet不是拼图文件。期望的幻数在尾部80，65，82，49，但在读取它们时发现56，52，53，51]。我必须将它们移动到其他目录，并确保hi

浏览 20提问于2019-05-25得票数 0

2回答

Databricks无法保存流检查点

、、、、

我正在尝试设置流以开始处理传入的文件。看起来Databricks无法保存检查点。我尝试在ADLS、Gen2和DBFS中定位，结果相同。Databricks用一些scructure创建所需的文件夹，但不能写入它。检查站的位置有什么特殊要求吗？ Databricks Community，运行时版本:9.1LTS(包括ApacheSpark3.1.2，Scala2.12) spark.readStream .format("cloudFiles") .option("cloudFiles.format", "parquet") .option(

浏览 9提问于2021-12-13得票数 3

1回答

星火结构流蓝/绿部署

、、、、

我们希望能够部署我们的星火作业，这样在部署期间处理数据就不会有任何停机时间(目前大约有2-3分钟的窗口)。在我看来，最简单的方法就是模拟“蓝色/绿色部署”理念，那就是旋转星火作业的新版本，让它热身，然后关闭旧作业。但是，使用结构化流和检查点，我们不能这样做，因为新的Spark作业看到最新的检查点文件已经存在(从旧作业)。我在下面附上了一个样本错误。有没有人对潜在的解决办法有任何想法？我考虑过将现有的检查点目录复制到新创建的作业的另一个检查点目录中--尽管这应该是一种解决办法(一些数据可能会被重新处理，但我们的DB应该去复制)，但这似乎非常麻烦，而且是我不想追求的。 Caused by: or

浏览 0提问于2018-04-04得票数 5

1回答

DCOS火花无法访问外部HDFS

、、

我已经安装了DCOS集群，在安装spark时，我提供了hdfs-site.xml和core-site.xml外部集群的详细信息，我试图使用spark访问这些集群。配置了/etc/host文件的DCOS集群的HDFS详细信息，我正在尝试运行我的火花作业在帮助下DCOS命令 dcos火花运行-提交-args=‘-dspak.mesos.粗=真-驱动程序-核心1-驱动程序-内存1024M -文件 -类SparkAvroConsumer ’ 火花作业执行遇到异常。此外，spark运行的代理正在尝试访问本地主机，而不是HDFS集群。是否有任何其他配置，我需要访问外部HDFS？ java.net.Conn

浏览 0提问于2018-02-22得票数 0

1回答

使用Sparkstreaming从HDFS获取数据

、

我正在尝试使用spark streaming从HDFS读取数据。下面是我的代码。 import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.hadoop.fs._ import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.mapreduce.lib.input.TextInputFormat val sparkConf = new Sp

浏览 0提问于2016-10-04得票数 0

3回答

火花流+ kafka -火花会话API

、、、

感谢您的帮助，运行火花流程序使用火花2.0.2。使用"java.lang.ClassNotFoundException: Failed to find data source: kafka"运行错误。修改后的POM文件如下。火花正在被创造，但是当卡夫卡的负载被召唤时却出现了错误。创建的火花会话： val spark = SparkSession .builder() .master(master) .appName("Apache Log Analyzer Streaming from Ka

浏览 8提问于2016-12-12得票数 4

回答已采纳

1回答

火花期望HDFS定位而不是本地Dir

、、

我试图运行火花流，但得到了这个问题。请帮帮忙 from pyspark.sql import SparkSession if __name__ == "__main__": print("Application started") spark = SparkSession \ .builder \ .appName("Socker streaming demo") \ .master("local[*]")\ .getOrCreate()

浏览 7提问于2022-07-30得票数 1

回答已采纳

2回答

尝试写入泛型记录类型的rdd时出现任务不可序列化异常

、、、

val file = File.createTempFile("temp", ".avro") val schema = new Schema.Parser().parse(st) val datumWriter = new GenericDatumWriter[GenericData.Record](schema) val dataFileWriter = new DataFileWriter[GenericData.Record](datumWriter) dataFileWriter.create(schema , file) rdd.foreach(r

浏览 0提问于2017-06-13得票数 1

1回答

在PySpark中模拟一系列离线事件的RDD数据流

、、、

我需要将在线Kafka流媒体期间保存到HDFS的事件注入回DStream PySpark，以进行相同的算法处理。我发现Holden Karau的代码示例“相当于像Kafka那样的可检查点、可重放、可靠的消息队列”。我想知道是否可以在PySpark中实现它： package com.holdenkarau.spark.testing import org.apache.spark.streaming._ import org.apache.spark._ import org.apache.spark.rdd.RDD import org.apache.spark.SparkContext._

浏览 1提问于2018-04-15得票数 0

1回答

spark 2.3.0中结构化流中禁用_spark_metadata

、、、、

我的结构化流应用程序正在编写parquet，我想摆脱它创建的_spark_metadata文件夹。我用了下面的房产，看上去不错。 --conf "spark.hadoop.parquet.enable.summary-metadata=false" 当应用程序启动时，不会生成_spark_metadata文件夹。但是，一旦它移动到运行状态并开始处理消息，它就会失败，因为下面的错误是_spark_metadata文件夹不存在。似乎结构化流依赖于这个文件夹，没有这个文件夹我们就无法运行。只是想知道在这个上下文中禁用元数据属性是否有任何意义。这是流不是指conf的bug吗？ Caus

浏览 0提问于2018-09-17得票数 5

回答已采纳

1回答

将kafka与火花流集成时始终返回空的rdd

、、、

我用的是星火流1.5.2 + Kafka object Kafka2HDFS { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Kafka2HDFS") val ssc = new StreamingContext(sparkConf, Seconds(5)) val zk = "192.168.1.105:2181,192.168.1.106:2181,192.168.1.107:2181" val topicMap

浏览 1提问于2016-02-15得票数 0

2回答

如何在火花作业中使用HiveContext添加jar

、、、

我试图将json文件添加到JSON文件中，以便访问JSONSerDe数据，将JSON从spark作业加载到hive表中。我的代码如下所示： SparkConf sparkConf = new SparkConf().setAppName("KafkaStreamToHbase"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(10)

浏览 4提问于2016-06-14得票数 2