Spark action坚持使用EOFException

文章/答案/技术大牛

发布

3回答

我正在尝试执行一个带有卡住的Spark的动作。相应的执行器抛出以下异常： 2019-03-06 11:18:16 ERROR Inbox:91 - Ignoring errorat java.io.DataInputStream.readFully)at org.apache.spark.rpc.netty.Dispatcher集群，使用

浏览 33提问于2019-03-06得票数 2

回答已采纳

1回答

Spark with Cassandra:无法注册spark.kryo.registrator

、、、

目前，当我尝试在独立模式下使用Cassandra运行Spark时，我遇到了一些问题。然后，我尝试切换到独立模式。我使用的是：首先，我得到了“未读区块作为其他主题中的建议，我改为使用Kryo序列化程序并添加Twitter Chil

浏览 1提问于2013-10-28得票数 2

1回答

无法将代理列表参数从Scala传递给Kafka: Property bootstrap.servers无效

、、、

我需要使用Scala和Spark使用来自远程Kafka队列主题的消息。默认情况下，远程计算机上的Kafka端口设置为7072，而不是9092。在POM文件中，我对Kafka和Spark使用了以下依赖项： <groupId>org.apache.spark</groupId>所以，我使用Sc

浏览 2提问于2017-01-02得票数 1

1回答

ObjectInputStream.readObject跳过文本文件的最后一行。

、、、

ptofile.write(line); { } catch(java.io.EOFException

浏览 2提问于2016-06-03得票数 1

回答已采纳

1回答

从简单的json文件创建并显示星火数据

、

以下简单的json DataFrame测试在本地模式下运行Spark时可以正常工作。json文件非常琐碎：当我切换到本地模式并使用单独的Spark服务器和一个主/工作人员时，相同的代码会失败。错误消息几乎相

浏览 3提问于2015-04-17得票数 3

1回答

火花-在读取时如何跳过或忽略空gzip文件

、、

我有几百个文件夹，每个文件夹都有数千个压缩文本文件，每个文件夹都在s3中，我正在尝试用spark.read.csv()将它们读入数据格式。在这些文件中，有些文件的长度为零，导致错误： df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema) 我尝试过将mode设置为DROP

浏览 2提问于2017-04-05得票数 21

1回答

在Azure Synapse工作区上读取Parquet文件错误火花

、、、

我正在使用azure工作空间运行一个吡火花作业。我的星火作业失败了，有以下错误。有人能帮我调试这个错误吗？: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 94.0 failed 4times, most recent failure: Lost task 0.3 in stage 94.0 (TID 2313) (vm-1d164027 executor 3): j

浏览 21提问于2022-10-06得票数 0

1回答

如何很好地从java.io.ObjectInputStream读取未知数量的对象？

、、

基本上，它所暗示的是：try { objectInputStream.readObject();} catch ( EOFException然而，正如Bloch在Effective Java中所说，人们应该只“在异常情况下使用异常”，而输入流现在不包含无限数量的对象并没有什么异常，对吧？每次都会发生这样的事情！我真的坚持使用异常来知道什么时候没有更多的对象可供读取吗？

浏览 3提问于2011-04-04得票数 2

回答已采纳

1回答

在Apache spark和Kafka broker之间启用SSL

、、、

我试图在我的ApacheSpark1.4.1和Kafka0.9.0.0之间启用SSL，我使用spark-streaming-kafka_2.10 Jar连接到Kafka，我使用KafkaUtils.createDirectStream在我看到下面这个问题之后，我做了一些阅读，发现spark-streaming-kafka_2.10使用了Kafka 0.8.2.1API，它不支持SSL (Kafka只在0.9.0.0版本之后才支持SSL在Spark1.4.1和Kafka 0.9.0.0之间

浏览 4提问于2016-10-25得票数 1

回答已采纳

1回答

在pycharm中运行pyspark程序

、、

我正在学习火花，并坚持运行示例基本程序，单词计数。请帮忙解决这个问题这是我正在使用的代码import sys at java.lang.Thread.run(Thread.java:745) Caused by: java.io.EOFExceptionWorker.run(ThreadPoolExecutor

浏览 2提问于2016-03-03得票数 1

回答已采纳

1回答

Spark手动配置gcs连接器时无法从读取文件

、、、

我在Google中使用bdutil部署了一个星火集群。我在我的驱动程序实例上安装了一个GUI，以便能够从它运行IntelliJ，这样我就可以尝试在交互模式下运行我的Spark进程。我所面临的第一个问题是，在从IntelliJ运行时根本不使用smack-env.sh和core-site.xml。最后，通过从配置文件中复制值，我终于在Scala中手动设置了配置。最后一件不起作用的事情是，即使gcs连接器似乎“看到”我设置的文件夹为源，每次它试图读取该文件夹中的实际文件时，我都会得到一个java.io.EOFException。

浏览 6提问于2015-07-27得票数 1

回答已采纳

2回答

找不到Pyspark模块

、、、、

问题是，当我从spark目录内部使用命令./bin/pyspark ..-1.4.1-hadoop2.2.0.jar at java.io.DataInputStream.readInt(DataInputStream.java-1.4.1-hadoop2.2.0.jar at java.io.DataInputStream.readInt(DataInputStream.java-1.4.1-hadoo

浏览 2提问于2015-09-02得票数 5

1回答

星星之火EC2在我开始工作时抛出EOFException

、、、

我正试图在我的星火集群上运行我的星火作业，我使用他们提供的Spark-ec2脚本创建了这个集群。Call to ec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000 failed on local exception: java.io.EOFExceptionat org.apache.spark.scheduler.EventLoggingListener.start(EventLoggingListener.scala:71)

浏览 2提问于2014-09-12得票数 1

回答已采纳

2回答

PySpark: java.io.EOFException

、、、、

在编写到Hadoop的大约180 k的parquet表之后，python意外地由于EOFException而崩溃。崩溃后，我可以使用PySpark过滤掉我已经准备好运行的运行，但在再运行几千次之后，它将再次使用相同的EOFException崩溃。我使用的是foreach，因为我不关心任何返回的值，只是想要将表写到Hadoop。 at java.l

浏览 0提问于2018-10-24得票数 2

2回答

为什么kafka在从通道读取时收到-1，当spark流到安全的kafka时，套接字可能已经关闭？

、、、

当我试图从spark (使用Java)流到secured (使用SASL明文机制)时，我得到了这个错误。更详细的错误消息： 17/07/07 14:38:43 INFO SimpleConsumer: Reconnect due to socket error: java.io.EOFException:Exception in thread "main" org.apache.spark.SparkException: java.io.EOFExcepti

浏览 55提问于2017-07-07得票数 2

回答已采纳

1回答

使用spark从远程hdfs集群读取文件时出现文件结束异常

、、

我刚开始使用HDFS。我正在尝试读取使用spark存储在hadoop集群中的csv文件。我尝试使用以下命令来调试它：link 对我不起作用。这是使用spark的代码。获取此错误:线程"main“java.io.EOFException中的异常:本地主机之间的文件结束异常为：

浏览 28提问于2019-08-27得票数 0

1回答

如何在macOS Mojave上使用Pandas？(由于[__NSPlaceholderDictionary初始化]可能正在进行中，所以失败.)

、、、

我试图在ApacheSpark2.4.0中使用 (macOS 10.14.3 ( macOS Mojave) )。df.select(multiply(col:37) at org.apache.spark.sql.execution.python.ArrowEvalPyt

浏览 0提问于2019-03-27得票数 5

回答已采纳

1回答

PySpark在使用boto3读取大文件时抛出java.io.EOFException

、、、

我使用boto3从S3读取文件，这表明比sc.textFile(...)快得多。这些文件大约在300 1GB到1GB之间。) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300)

浏览 12提问于2015-12-04得票数 2

1回答

Spark流媒体与结构化流媒体

、、

在过去的几个月里，我使用了相当多的结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache Spark进行流处理”一书后，我有了这样一个问题:有没有什么要点或用例可以让我使用Spark流而不是结构化流？我是不是应该花点时间去了解它，或者既然我已经在使用Spark Structured Streaming了，我应该坚持使用它，并且之前的API没有任何好处。将非常感谢任何意见&

浏览 17提问于2020-04-06得票数 2

1回答

火花斯威夫特集成地板

、、、、

我已经使用Spark1.3.0，并使用它来编写Parquet文件到Openstack对象商店一段时间。我使用了大约12个parquet文件，它写在斯威夫特上的几个部分的地板文件。写文件没问题。但当我试图通过星火读取它时，我会发现以下错误：java.io.EOFException(ShuffleMapTask.scala:41) at org.apache.sp

浏览 4提问于2015-09-04得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云