Spark scala找不到文件类型_错误:在Spark Scala中找不到值_Spark Scala GroupBy - 腾讯云开发者社区

json、apache-spark、amazon-s3、pyspark、out-of-memory

使用Pyspark时，当尝试将大量json文件从S3加载到dataframe时，会出现一个错误。错误似乎取决于我的火花会话使用的驱动程序内存。错误消息是"java.lang.OutOfMemoryError: GC开销超过限制“。我花了大量的时间在网上做研究，但是我没有找到任何能指出这个错误的确切原因的东西。请在下面找到完整的错误信息和代码。我希望能在这方面提供任何帮助！驱动环境我在jupyterlab中运行的jupyter笔记本中使用了pyspark，它本身运行在一个拥有30 on可用内存的EC2实例上。 Sparksession资源 spark.executor.memory

浏览 1提问于2020-04-13得票数 0

2回答

AWS-EMR:日志文件在哪里？

amazon-web-services

我正在使用EMR通过纱线运行spark作业。作业失败，但我找不到EMR记录异常的位置，我可以在主节点屏幕输出上看到回溯，如下所示。应该有一个更详细的日志文件，它显示了导致异常的原因，但我找不到它在哪里。我查看了hdfs://var/log/spark/app/application_xxx，它没有显示任何错误。以下是我提交申请的方式： spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 2 --executor-memory 5g word2vec_app.py hdfs:///

浏览 32提问于2017-03-02得票数 2

回答已采纳

1回答

spark-shell:导入时的奇怪行为

scala、shell、apache-spark、scala-repl

我在spark-shell (Spark版本2.1.0，使用Scala版本2.11.8，OpenJDK 64位服务器VM，1.7.0_151)中工作。我导入Column类： scala> import org.apache.spark.sql.Column import org.apache.spark.sql.Column 我可以定义一个Column对象： scala> val myCol: Column = col("blah") myCol: org.apache.spark.sql.Column = blah 并在函数定义中使用Column： scala&

浏览 6提问于2018-01-30得票数 6

5回答

星火升级问题:密钥未找到：_PYSPARK_DRIVER_CONN_INFO_PATH

apache-spark、pyspark

下载了最新的Spark版本，因为错误AsyncEventQueue:从队列appStatus删除70个事件。在设置了环境变量并在PyCharm中运行相同的代码之后，我得到了这个错误，但我找不到解决方案。 Exception in thread "main" java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CONN_INFO_PATH at scala.collection.MapLike$class.default(MapLike.scala:228) at scala

浏览 0提问于2018-06-15得票数 5

1回答

在registerTempTable之后找不到Spark

sql、scala、apache-spark

在向临时表中添加数据后，我尝试运行sql查询，但每次它显示表时都找不到。 emp是dataframe的名称。命令 scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc) sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@6cb7a4c1 scala> import sqlContext.implicits._ import sqlContext.implicits._ scala> emp.re

浏览 0提问于2017-12-05得票数 0

1回答

读取json文件时，找到json的多个源时，spark2.0错误

apache-spark、apache-spark-sql

当我使用spark2.0时，读取json文件如下： Dataset<Row> logDF = spark.read().json(path); logDF.show(); 但它失败了： 16/08/04 15:35:05 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.RuntimeException: Multiple sources found for json (org.apache.spark.sql.execution.datasources.json.JsonFileFormat,

浏览 21提问于2016-08-04得票数 2

1回答

在Spark Structured Streaming中使用Kafka接收器时，检查点是强制的吗？

java、apache-spark、spark-structured-streaming

我正在尝试使用Spark Structured Streaming将聚合数据写入Kafka。下面是我的代码： dataset .writeStream() .queryName(queryName) .outputMode(OutputMode.Append()) .format("kafka") .option("kafka.bootstrap.servers", kafkaBootstrapServers) .option("topic", "topic") .trigg

浏览 1提问于2018-04-10得票数 1

1回答

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

apache-spark、apache-spark-sql

这个GC开销限制错误让我发疯了。我有20个执行者使用25 GB，我完全不明白它怎么能抛出GC开销，我也不是那个大数据集。一旦这个GC错误发生在执行器中，它就会丢失，其他执行程序也会慢慢丢失，因为IOException、Rpc客户端断开、洗牌找不到等等。我是星火的新手。 WARN scheduler.TaskSetManager: Lost task 7.0 in stage 363.0 (TID 3373, myhost.com): java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache

浏览 0提问于2015-08-18得票数 1

回答已采纳

1回答

如何在与SBT一起使用Intellij时更改提供的依赖关系？

scala、intellij-idea、sbt-assembly

我的build.sbt看起来是这样的： libraryDependencies ++= Seq( "org.apache.hadoop" % "hadoop-aws" % sparkVersion % Provided, "org.apache.spark" %% "spark-core" % sparkVersion % Provided, "org.apache.spark" %% "spark-sql" % sparkVersion % Provided, "org.s

浏览 2提问于2021-10-22得票数 1

回答已采纳

1回答

在DSX中找不到com.cloudant.spark数据源

data-science-experience、spark-cloudant

我正试图跟踪，用Spark加载云数据。我有一个Scala2.11和Spark2.1(也适用于Spark2.0)笔记本，其中包含以下代码： // @hidden_cell var credentials = scala.collection.mutable.HashMap[String, String]( "username"->"<redacted>", "password"->"""<redacted>""", "host"->

浏览 4提问于2017-07-08得票数 0

回答已采纳

1回答

Spark找不到Scala特定的方法

java、scala、apache-spark、sbt、apache-spark-mllib

问题是每个作业都会失败，但会出现以下异常： Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)[Ljava/lang/Object; at ps.sparkapp.Classification$.main(Classification.scala:35) at ps.sparkapp.Classification.main(Classification.scala) at sun.reflect.NativeMethodAcc

浏览 2提问于2017-07-28得票数 3

1回答

为什么IDEA找不到toDS()和toDF()函数？

intellij-idea、apache-spark-sql

我的代码在spark-shell中运行良好： scala> case class Person(name:String,age:Int) defined class Person scala> val person = Seq(Person("ppopo",23)).toDS() person: org.apache.spark.sql.Dataset[Person] = [name: string, age: int] scala> person.show() +-----+---+ | name|age| +-----+---+ |ppopo| 23|

浏览 0提问于2016-08-16得票数 10

2回答

Spark DataFrame在Spark2.2和Spark2.3中的子句语法不同

scala、apache-spark

val someDF = Seq( (8, "bat"), (64, "mouse"), (-27, "horse")).toDF("number", "word") someDF.select("number").where(someDF.col("word").isNull).show 此语句在Spark 2.2中有效，但在Spark 2.3中运行时失败。堆栈跟踪： org.

浏览 0提问于2018-08-16得票数 0

1回答

隔离Maven依赖项

java、scala、maven、apache-spark

我正在尝试将Spark集成到一个包含以下依赖项的Maven项目中： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.0</version> </dependency> <dependency> <groupId>org.apache.

浏览 0提问于2017-05-10得票数 1

1回答

PySpark在CLI中工作，但在VS代码IDE中不工作

apache-spark、pyspark

我有Python3.10.8，PySpark 3.3.1和JDK 17 (根据Apache支持的网站)。当我在CLI中运行PySpark时，它正确地启动了SparkSession，但是在笔记本和CLI中的VS代码中都出现了一个错误"Exception: Java网关进程在发送端口号之前已退出“，更准确地说： Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.unsafe.array.ByteArrayMethods.<clinit>(Byt

浏览 7提问于2022-11-14得票数 0

1回答

org.apache.spark.ui.SparkUI.addStaticHandler(Ljava/lang/String;Ljava/lang/String；：java.lang.NoSuchMethodError

java、apache-spark

我正在运行关于Java+Spark+SQL的以下示例。但得到了这个例外。编译时没有错误我怎么才能避免这种情况？却找不到任何关于这个异常的线索。请帮帮我。 SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("JavaSparkSQL"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); SQLContext sqlContext = new SQLContext(ctx); 异常跟踪： Exception in

浏览 3提问于2015-11-06得票数 0

回答已采纳

1回答

原因: java.lang.ClassCastException: Person无法转换为Person

scala、apache-spark

我在docker all- spark -notebook上测试spark应用程序，Scala代码是： val p = spark.sparkContext.textFile ("../Data/person.txt") val pmap = p.map ( _.split (",")) pmap.collect() 输出为：Array(Array(Barack, Obama, 53), Array(George, Bush, 68), Array(Bill, Clinton, 68)) case class Person (first_name:String,

浏览 1提问于2017-07-29得票数 2

1回答

在Scala中运行scala.Function0 simple WordCount

scala、apache-spark、sbt、bigdata、data-science

我正在尝试运行一个简单的程序，在scala中用火花来计数单词。我已经在linux中自己完成了所有的安装，并且我无法执行它，因为我有以下错误： java.lang.ClassNotFoundException: scala.Function0 at sbt.internal.inc.classpath.ClasspathFilter.loadClass(ClassLoaders.scala:74) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at java.lang.Class.forName0(Native Method)

浏览 3提问于2017-10-26得票数 0

回答已采纳

1回答

来自sbt scala的google dataproc上的星星之火-sql

apache-spark-sql、google-cloud-dataproc

使用集群，我的sbt构建的程序集jar可以通过SparkContext访问Cassandra。然而，当我试图通过sqlContext访问时，我会得到远程集群上找不到的spark类--尽管我认为dataproc集群应该为spark提供服务。 java.lang.NoClassDefFoundError: org/apache/spark/sql/types/UTF8String$ at org.apache.spark.sql.cassandra.CassandraSQLRow$$anonfun$fromJavaDriverRow$1.apply$mcVI$sp(Cassand

浏览 5提问于2015-11-04得票数 2

回答已采纳

1回答

对数据帧执行操作时出现Spark sqlContext异常

java、apache-spark、apache-spark-sql

当我对拼图文件进行计数时，我得到了下面的错误， java.lang.NoSuchMethodError: org.apache.parquet.schema.Types$MessageTypeBuilder.addFields([Lorg/apache/parquet/schema/Type;)Lorg/apache/parquet/schema/Types$GroupBuilder; at org.apache.spark.sql.execution.datasources.parquet.CatalystReadSupport$.clipParquetSchema(Catalys

浏览 19提问于2021-08-06得票数 1

1回答

使用Hive表时火花提交抛出错误

apache-spark、hive、spark-dataframe

我有一个奇怪的错误，我试图写数据给蜂巢，它在火花壳工作良好，但当我使用火花提交，它抛出数据库/表在默认错误中找不到。下面是我试图在spark submit中编写的代码，我使用的是自定义构建的spark 2.0.0 val sqlContext = new org.apache.spark.sql.SQLContext(sc) sqlContext.table("spark_schema.iris_ori") 下面是我使用的命令， /home/ec2-user/Spark_Source_Code/spark/bin/spark-submit --class TreeClass

浏览 4提问于2016-05-20得票数 0

回答已采纳

1回答

Park2.3.0火花壳抛出错误的Apache示例

apache-spark、avro、spark-avro、spark-shell、apache-hudi

我正在尝试使用火花壳运行这个示例()。Apache文档说"Hudi与Spark-2.x版本一起工作“环境详细信息如下：平台: HDP 2.6.5.0-292火花版本: 2.3.0.2.6.5.279-2 Scala版本: 2.11.8 我使用下面的星火-外壳命令(N.B. -火花-阿夫罗版本不完全匹配，因为我找不到火花-阿夫罗依赖于火花2.3.2)。 spark-shell \ --packages org.apache.hudi:hudi-spark-bundle_2.11:0.6.0,org.apache.spark:spark-avro_2.11:2.4.4,org.apach

浏览 0提问于2020-12-27得票数 0

回答已采纳

1回答

java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

scala、apache-spark、spark-streaming

我的spark流程序收到以下错误: Exception in thread "main“java.lang.NoClassDefFoundError:org/apache/spark/internal/Logging My version of Spark is 2.1，这与集群中运行的版本相同。我在互联网上找到的信息提示我，旧版本的org.apache.spark.Logging在新版本中变成了org.apache.spark.internal.Logging，这阻止了jar包被找到。但我的pom中引入的依赖项是一个新版本。为什么我找不到jar包？ <properti

浏览 6提问于2019-01-07得票数 1

1回答

spark中有没有库可以根据标签拆分xml文件？

xml、scala、apache-spark

我尝试在Spark Scala中拆分XML文件。我找到了用于在Java中拆分XML数据的JAXB库，但是我找不到任何用于Spark Scala的库。有可用的lib吗？提前谢谢你！

浏览 0提问于2017-11-16得票数 0

1回答

kafka spark连接时出错

apache-spark、apache-kafka、nosuchmethoderror

我试着把卡夫卡和斯帕克联系起来。我使用kafka_2.11-0.11.0.1和spark 2.2.0。我将jar文件包括为： kafka_2.11-0.11.0.1 kafka-客户端-0.11.0.1 spark-streaming_2.11-2.2.0 spark-streaming-kafka_2.11-2.2.0 下面是我的代码： import org.apache.spark._ import org.apache.spark.streaming.dstream._ import org.apache.spark.streaming.kafka._ import org.apache

浏览 0提问于2017-11-03得票数 1

3回答

无法下载scala-library-2.11

java、scala、maven

当我使用sbt时，错误信息显示如下： ==== public: tried [warn] https://repo1.maven.org/maven2/org/scala-lang/scala-library/2.11/scala-library-2.11.pom [warn] ==== bintray-spark-jobserver-maven: tried [warn] https://dl.bintray.com/spark-jobserver/maven/org/scala-lang/scala-library/2.11/scala-library-2.11.pom [warn

浏览 12提问于2018-02-28得票数 2

1回答

当Spark提交给Kubernetes时，spark应用程序放在哪里？

scala、apache-spark、kubernetes、spark-submit

我的案例与本主题中的案例相同。我从一个容器中运行Spark。 bin/spark-submit \ --master k8s://https://kubernetes:6443 \ --deploy-mode cluster \ --name spark-pi \ --class org.apache.spark.examples.SparkPi \ --conf spark.kubernetes.namespace=spark \ --conf spark.executor.instances=5 \ --conf spark.kubernetes.container.image=gcr.

浏览 1提问于2018-07-07得票数 0

2回答

Spark升级到1.5.1在运行时抛出异常

apache-spark

我升级到了Spark 1.5.1，在使用RDD.map()时遇到了问题。我得到了以下异常： Exception in thread "main" java.lang.IllegalArgumentException at com.esotericsoftware.reflectasm.shaded.org.objectweb.asm.ClassReader.<init>(Unknown Source) at com.esotericsoftware.reflectasm.shaded.org.objectweb.asm.ClassReader.<init>

浏览 2提问于2015-10-08得票数 4

1回答

如何将S3中的拼花从AWS SageMaker中保存？

amazon-web-services、apache-spark、hadoop、amazon-s3、amazon-sagemaker

我想将星火DataFrame从AWS SageMaker保存到S3。在笔记本里，我跑了 myDF.write.mode('overwrite').parquet("s3a://my-bucket/dir/dir2/") 我得到了 Py4JJavaError:调用o326.parquet时出错。：java.lang.RuntimeException: java.lang.ClassNotFoundException:在org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)，or

浏览 0提问于2018-03-30得票数 0

1回答

如何删除星火(SCALA)中的整个数据帧？

scala

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

1回答

哪个罐子有org.apache.spark.sql.types？

scala、apache-spark、apache-spark-sql、apache-spark-1.6、spark-submit

我正在使用Spark1.x，并试图读取csv文件。如果需要按照org.apache.spark.sql.types.指定某些数据类型，则需要导入包中定义的类型。 import org.apache.spark.sql.types.{StructType,StructField,StringType}; 当我在spark中交互地使用它时，这是很好的，但是由于我想通过火花提交运行这个过程，我编写了一些Scala代码来完成这个任务。但是，当我试图编译我的Scala代码时，它会给我一个错误，说明它找不到org.apache.spark.sql.types。我查找了spark-sql的jar内容，但找不

浏览 3提问于2017-02-15得票数 0

回答已采纳

1回答

实例化AbstractMethodError异常时JavaStreamingContext异常

apache-spark、spark-streaming

我在创建一个AbstractMethodError时得到了JavaStreamingContext异常。我的依赖指数如下；找不到线索，谁能建议这里出了什么问题吗？ <dependency>  <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.1</version>

浏览 0提问于2019-01-11得票数 1

回答已采纳

3回答

星星之火侦听器EventLoggingListener抛出一个异常/ ConcurrentModificationException

apache-spark

在我们的应用程序(Spark2.0.1)中，这个异常经常出现。这件事我什么都找不到。可能是什么原因？ 16/10/27 11:18:24 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception java.util.ConcurrentModificationException at java.util.ArrayList$Itr.checkForComodification(ArrayList.java:901) at java.util.ArrayList$Itr.next(ArrayLi

浏览 7提问于2016-10-27得票数 14

回答已采纳

3回答

不使用Spark从Scala读取拼图文件

scala

有没有可能在不使用Apache Spark的情况下从Scala中读取拼图文件？我发现了一个项目，它允许我们使用普通的scala读写avro文件。然而，我找不到一种方法来读写拼图文件使用普通的scala程序而不使用Spark？

浏览 0提问于2016-02-06得票数 22

回答已采纳

1回答

Scala : JniBasedUnixGroupsMapping:错误获取组:找不到用户名

scala、maven、hadoop、apache-spark、hivecontext

我一直用scala中的spark从本地系统连接到Hive (它在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中，并且能够连接到转移，但无法访问蜂窝表。如何更改HiveContext的用户 15/12/22 10:28:42 INFO ParseDriver:解析命令:显示表15/12/22 10:28:43 INFO ParseDriver: ParseDriver:解析完成15/12/22 10:28:45信息转移:试图连接到信息转移://server.com:9083 15/12/22 10:28:46 INFO JniBasedUnixG

浏览 2提问于2015-12-22得票数 0

回答已采纳

1回答

火花流待批处理

apache-spark、apache-kafka、spark-streaming

我正在运行一个Spark Streaming应用程序，它从Kafka (使用Direct Stream方法)读取数据，并将结果发布回Kafka。该应用程序的输入速率以及应用程序的吞吐量在大约一两个小时内保持稳定。之后，我开始看到在Active Batches队列中保留很长时间(对于30mins+)的批处理。Spark driver日志指示以下两种类型的错误，并且这些错误发生的时间与批处理的开始时间非常吻合：第一错误类型 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event q

浏览 3提问于2017-08-04得票数 0

2回答

spark提交给出“主”对象:scala.Some.value()Ljava/lang/java.lang.NoSuchMethodError

scala、apache-spark、sbt

我正在尝试做一个spark提交，以检查与一些简单的scala代码的兼容性 println("Hi there") val p = Some("pop") p match { case Some(a) => println("Matched " + a) case _ => println("00000009") } scala版本: 2.12.5 spark版本: 2.4.6 目前，在通过spark-submit 2.4.7构建和运行jar之后，它给出了： Hi there Exception in thre

浏览 0提问于2021-03-15得票数 0

1回答

Java中的SparkNLP情感分析

java、apache-spark、nlp、apache-spark-mllib、johnsnowlabs-spark-nlp

我想使用默认的训练模型在column1列上的spark数据集上使用SparkNLP进行情感分析。这是我的代码： DocumentAssembler docAssembler = (DocumentAssembler) new DocumentAssembler().setInputCol("column1") .setOutputCol("document"); Tokenizer tokenizer = (Tokenizer) ((Tokenizer) new Tokenizer().setInputCols(new Str

浏览 31提问于2019-09-20得票数 4

回答已采纳

1回答

spark-submit命令显示找不到python

apache-spark、hadoop

当我运行命令spark-submit spark.py时，我得到了以下错误，我不能理解我已经安装了python。我已经检查了路径，它们是正确的，python版本也是3.9。我找不到错误。请帮帮我！ java.io.FileNotFoundException: Hadoop bin directory does not exist: D:\spark-3.1.2-bin-hadoop3.2\bin\bin -see https://wiki.apache.org/hadoop/WindowsProblems at org.apache.hadoop.util.Shell.get

浏览 102提问于2021-06-25得票数 0

回答已采纳

1回答

ExecutorPlugin:捆绑在应用程序JAR中的插件类，在executor上找不到类

apache-spark

摘要我试着创建一个。我在app JAR中实现了我的插件类，并将spark.executor.plugins设置为插件类的名称。但是，这不起作用，执行器无法启动，因为它们找不到插件类(ClassNotFoundException)。我让它工作的唯一方法是将我的应用程序JAR作为spark.executor.extraClassPath额外传递。为什么会这样呢？我希望app JAR中的类对执行器是可见的。我更希望能够将插件捆绑到我的应用程序JAR中，以避免使用spark.executor.extraClassPath。谢谢! 详细信息下面是错误的一个非常简单的复制品。plugin类： pack

浏览 0提问于2019-10-28得票数 0

2回答

如何在minikube创建的本地kubernetes上激发提交作业

apache-spark、kubernetes、minikube

我正在阅读并试图运行。 $kubectl get po NAME READY STATUS RESTARTS AGE spark-master-668325562-w369p 1/1 Running 0 23s spark-worker-1868749523-xt7hg 1/1 Running 0 23s 现在，星火集群在minikube创建的本地kubernetes集群上运行良好。我正试图通过以下命令向其提交激发作业： spark-2.1.1-

浏览 3提问于2017-06-15得票数 0

回答已采纳

2回答

从case类创建DataFrame

scala、apache-spark、apache-spark-sql、spark-dataframe

我读过其他相关的问题，但我找不到答案。我想从Spark2.3中的case类创建一个DataFrame。Scala 2.11.8。代码 package org.XXX import org.apache.spark.sql.SparkSession object Test { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName("test") .getOrCreate() case class Emp

浏览 12提问于2018-05-14得票数 2

2回答

丝上的星火是如何处理文件的？

apache-spark

我正在使用Yarn在Spark中执行一个过滤器，并接收以下错误。任何帮助都很感激，但我的主要问题是为什么找不到文件。 /hdata/10/yarn/nm/usercache/spettinato/appcache/application_1428497227446_131967/spark-local-20150708124954-aa00/05/merged_shuffle_1_343_1 它似乎无法找到一个文件，已存储到HDFS后，被洗牌。为什么星火访问目录"/hdata/"？这个目录不存在于HDFS中，它应该是本地目录还是HDFS目录？我可以配置存储混叠数据的位置吗？

浏览 3提问于2015-07-08得票数 10

回答已采纳

2回答

IntelliJ scala项目导入

scala、apache-spark、intellij-idea、intellij-plugin、intellij-14

我在IntelliJ中有一个scala项目，它有一个简单的文件夹结构src/core/CommonCSVReader.scala，我在src/下有一个program.scala文件，我从集成终端运行spark，然后尝试运行:load program.scala，得到以下错误：对象CommonCSVReader不是包核心的成员。即使我退出火花壳并尝试运行scala program.scala，我也遇到了同样的问题，我想尝试从intelliJ运行program.scala，但是如果我右键单击program.scala，我没有Run ScalaApp选项，只运行Scala控制台，它只是启

浏览 0提问于2018-07-14得票数 0

1回答

如何将spark结构化流数据重置为最后一个可用偏移量

apache-spark、apache-kafka、spark-streaming、spark-structured-streaming

我正在使用Kafka运行一个结构化的流应用程序。我发现如果由于某种原因系统停机了几天...检查点变得陈旧，并且在Kafka中找不到与检查点对应的偏移量。我如何让Spark结构化流媒体应用选择最后一个可用的偏移量，并从那里开始。我尝试将偏移量重置设置为较早/最新，但系统崩溃，出现以下错误： org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {MyTopic-574=6559828} at

浏览 3提问于2020-04-19得票数 0

1回答

使用Spark2.2.0读取蜂巢转移2.x

hadoop、apache-spark、hive、metastore

在2.2.0版本之前，Spark无法与Hive 2.X通信，所以我只能使用Hive 1+ Spark 1/2。现在可以使用星火2+蜂巢2，但我仍然面临一些问题。使用预编译的，在访问时态单元表时会出现以下错误：线程“主”java.lang.IllegalArgumentException中的异常:无法用Hive支持实例化SparkSession，因为找不到Hive类。在org.apache.spark.sql.SparkSession$Builder.enableHiveSupport(SparkSession.scala:845) at io.bigdatabenchmark.v2.

浏览 0提问于2017-07-26得票数 1

1回答

作为客户在纱线上运行火花

apache-spark、hadoop-yarn

我正试着用以下方法来运行一个与纱线有关的火花作业： ./bin/spark-submit --class "KafkaToMaprfs" --master yarn --deploy-mode client /home/mapr/kafkaToMaprfs/target/scala-2.10/KafkaToMaprfs.jar 但面对这个错误： /opt/mapr/hadoop/hadoop-2.7.0 17/01/03 11:19:26警告NativeCodeLoader:无法为平台加载本机hadoop库.在适用的情况下使用内置java类17/01/03 11:19:38错

浏览 0提问于2017-01-03得票数 1

4回答

如何将Case类作为模式，在从RDD[String]解析的数据集中将默认值设置为“null”

scala、apache-spark、apache-spark-sql

我正在解析来自给定RDD[String]的JSON字符串，并尝试将其转换为具有给定case class的Dataset。但是，当JSON字符串不包含case class的所有必需字段时，我会得到一个异常，即找不到缺少的列。如何定义这种情况的默认值？我尝试在case class中定义默认值，但这并没有解决问题。我正在使用Spark2.3.2和Scala2.11.12。这段代码运行良好 import org.apache.spark.rdd.RDD case class SchemaClass(a: String, b: String) val jsonData: String = &#

浏览 2提问于2020-06-10得票数 0

回答已采纳

1回答

Spark:从2.1.0升级到2.2.1时，Dataframe操作非常慢

java、scala、apache-spark

我刚刚把spark 2.1.0升级到了spark 2.2.1。有人在dataframe.filter(…).collect()上看到过极慢的行为吗？..具体地说，就是之前使用filter进行的collect操作。dataframe.collect看起来运行得很好。然而，dataframe.filter(…).collect()耗时很长。它只包含2条记录。这是在单元测试中。当我回到spark 2.1.0时，它又回到了正常的速度我查看了线程转储，但找不到明显的原因。我已经努力确保我正在使用的所有库也使用Spark 2.2.1。任何建议都将不胜感激。它似乎卡在这个堆栈跟踪上了。 scala.co

浏览 2提问于2018-11-21得票数 1

2回答

delta lake - Insert in pyspark : java.lang.NoSuchMethodError: delta lake-Insert Insert is sql in pyspark:java.lang.NoSuchMethodError:delta lake-Insert Insert is with java.lang.NoSuchMethodError:delta lake-Insert is sql in pyspark

apache-spark、pyspark、databricks、google-cloud-dataproc、delta-lake

使用带有增量io包io.delta:delta-core_2.12:0.7.0镜像2.0.x创建Dataproc集群 Spark版本为3.1.1 Spark shell由以下命令启动： pyspark --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \ --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog 执行命令以创建增量表并插入到增量sql中： spark.sql

浏览 34提问于2021-02-09得票数 4