Spark Scala上的java.lang.NullPointerException问题_spark Scala中的直方图问题_Spark (scala)问题迭代器 - 腾讯云开发者社区

apache-spark、mobius

我有以下非常基本的代码，可以从连接到在linux虚拟机器上运行的spark集群的windows机器上运行： string sparkMaster = "spark://192.168.1.193:7077"; string hdfsURI = "hdfs://192.168.1.193:8020"; var sparkContext = new SparkContext(new SparkConf().SetAppName("MobiusWordCount").SetMaster(sparkMas

浏览 7提问于2016-05-24得票数 0

1回答

线程“删除Spark本地目录”java.lang.NullPointerException异常

shell、hadoop、apache-spark、sparkr

嗨，我正在通过shell脚本运行sparkr程序。我将输入文件指向本地意味着它工作正常，但是当我指向hdfs时意味着它抛出错误。 Exception in thread "delete Spark local dirs" java.lang.NullPointerException Exception in thread "delete Spark local dirs" java.lang.NullPointerException at org.apache.spark.storage.DiskBlockManager.org$apache$spark$s

浏览 3提问于2015-09-02得票数 0

3回答

在java中加入spark RDD时需要帮助

java、apache-spark、spark-cassandra-connector

需要在spark中执行以下join操作 JavaPairRDD<String, Tuple2<Optional<MarkToMarketPNL>, Optional<MarkToMarketPNL>>> finalMTMPNLRDD = openMTMPNL.fullOuterJoin(closedMTMPNL); 要执行此操作，我需要两个JavaPairRDD，即closedMTMPNL和openMTMPNL。OpenMTM和closeMTM运行得很好，但是两个RDD上的keyBy在运行时都出现了错误。 JavaPairRDD<Strin

浏览 0提问于2015-06-28得票数 1

1回答

apache spark中的自定义分区器

scala、apache-spark

下面是“学习火花:闪电-快速大数据分析”一书中的一个例子： // custom partitioner class DomainNamePartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = { val domain = new URI(key.toString).getHost val code = (domain.hashCode % numPartiti

浏览 3提问于2016-02-02得票数 1

回答已采纳

1回答

如果我可以将用户定义的函数用于RDD

scala、apache-spark

我想使用一个md5函数来进行RDD[(String，ArrayDouble)]，但是有一个Null指针异常错误。我发现了堆栈溢出的问题。。我的代码： def md5(s: String) = { MessageDigest.getInstance("MD5").digest(s.getBytes). map("%02x".format(_)).mkString.substring(0,8) } val rdd=sc.makeRDD(Array(1,8,6,4,9,3,76,4))//.collect().foreach(pr

浏览 2提问于2016-01-06得票数 0

1回答

随着数据帧变得越来越大，火花破灭

python、apache-spark、pyspark

我有一个运行良好的脚本，直到下面这行： df_3 = df_2.groupBy("id").pivot("key").agg(collect_list("value")).select('col1','col2') 问题是由pivot引起的java.lang.NullPointerException。我相信df_2大约有600K行，只有几列，如果我在前面添加这一行，它会起作用： df_2 = df_2.limit(27000) 但是任何更高的值都会导致空指针异常。为什么会发生这种情况？我认为600K行不会是那么大

浏览 24提问于2020-07-07得票数 0

1回答

spark-submit抛出:错误SparkContext:91 -初始化SparkContext时出错。java.lang.NullPointerException

apache-spark

我正在尝试提交一个应用程序到我的远程Spark 2.3.2集群(我可以从我的客户端机器访问)。我一直收到ERROR SparkContext:91 - Error initializing SparkContext. java.lang.NullPointerException，我就是不明白为什么。我已经能够在本地运行这段代码，并且它工作正常。任何关于ERROR SparkContext:91 - Error initializing SparkContext. java.lang.NullPointerException含义的见解或建议都将不胜感激 spark-submit --class

浏览 0提问于2018-11-15得票数 1

2回答

无法在Scala中并行化列表

scala、rabbitmq、spark-streaming、avro

我无法在scala中并行化一个列表，获取java.lang.NullPointerException messages.foreachRDD( rdd => { for(avroLine <- rdd){ val record = Injection.injection.invert(avroLine.getBytes).get val field1Value = record.get("username") val jsonStrings=Seq(record.toString())

浏览 4提问于2017-07-13得票数 0

2回答

使用spark从MSSQL server读取数据时使用java.lang.NullPointerException

scala、apache-spark、apache-spark-sql、spark-streaming、spark-dataframe

我在使用Cloudera Spark从MSSQL服务器读取数据时遇到了问题。我不确定问题出在哪里，也不知道是什么原因造成的。这是我的build.sbt val sparkversion = "1.6.0-cdh5.10.1" name := "SimpleSpark" organization := "com.huff.spark" version := "1.0" scalaVersion := "2.10.5" mainClass in Compile := Some("com.huff.spark.

浏览 3提问于2017-05-24得票数 1

1回答

为什么一些(空的)在Spark2.4中抛出NullPointerException (但在2.2中有效)？

scala、apache-spark

这段代码过去在Spark 2.2 Scala 2.11.x下运行过，但在Spark 2.4中不起作用。 val df = Seq( (1, Some("a"), Some(1)), (2, Some(null), Some(2)), (3, Some("c"), Some(3)), (4, None, None) ).toDF("c1", "c2", "c3") 我在Spark 2.4中运行了它，现在它给出了错误： scala> spark.version res0: String = 2.

浏览 13提问于2019-02-24得票数 1

回答已采纳

1回答

在完成任务时在SQLListener.onTaskEnd上启动NullPointerException

hadoop、apache-spark、hdfs、hadoop-yarn

我有一个使用Scala的Spark应用程序，它执行一系列转换，然后将结果写到parquet文件中。转换部分完成，没有问题，结果输出被正确地写入HDFS。该应用程序在30个节点的YARN集群上运行。但是，Spark应用程序本身不会完成并退出纱线。它将保留在资源管理器中。在挂起大约一个小时(消耗资源和vcore)之后，它要么结束，要么抛出一个错误并自行终止。这是应用程序的错误日志。如果有人能对这件事有所了解，我将不胜感激。 16/08/24 14:51:12 INFO impl.ContainerManagementProtocolProxy: Opening proxy : phhdpd

浏览 0提问于2016-08-24得票数 0

1回答

星星之火2.2空-安全左外加入空指针异常

scala、apache-spark、apache-spark-sql

使用空安全的等于运算符执行左外部连接将产生一个NullPointerException。版本Spark2.2.0，Scala2.11.8 scala> var d1 = Seq((null, 1), ("a1", 2)).toDF("a", "b") scala> d1.show +----+---+ | a| b| +----+---+ |null| 1| | a1| 2| +----+---+ scala> var d2 = Seq(("a2", 3)).toDF("a", &

浏览 3提问于2017-10-10得票数 4

1回答

使用NullPointerException的Spark作业服务器中的作业提交失败

apache-spark、spark-jobserver

我正在使用Spark Job Server 0.6.2和Spark 1.6.0，在一些作业提交尝试中，我得到了以下异常： [ERROR] 2016-11-16 08:01:59,595 spark.jobserver.context.DefaultSparkContextFactory$$anon$1 logError - Error initializing SparkContext. java.lang.NullPointerException at org.apache.spark.scheduler.TaskSchedulerImpl.<init>(TaskSchedule

浏览 0提问于2016-11-16得票数 1

1回答

SingleStore火花连接器:读/写操作时NULLPointer异常

apache-spark、singlestore

读/写操作是从火花外壳工作的。但是在本地从Development执行时抛出NULLPointer异常。 val df = spark.read .format("singlestore") .option("ddlEndpoint", "host:port") .option("user", "xxxxx") .option("password","xxxxx") .option("database","xxxxx") .

浏览 5提问于2022-04-13得票数 0

1回答

星火ThriftServer未能在安全模式下启动

hadoop、apache-spark、hive、kerberos

在使用kerberos的Hadoop-2.7.1安全集群上配置了Spark-1.4.1和Hive1.2.1。在未启用sasl的情况下开始外部转移。我可以用直线在Hive server2中做基本操作。当尝试启动时，获取与委托令牌相关的异常。命令 spark-submit --class org.apache.spark.deploy.history.HistoryServer --master yarn-client C:\Spark\lib\spark-core_2.10-1.4.0.jar 星火中的异常 15/07/28 16:07:31 INFO scheduler.DAGSchedu

浏览 8提问于2015-07-28得票数 2

回答已采纳

1回答

Mahout 0.11.1火花-壳牌NoClassDefFoundError

java、apache-spark、jersey、mahout

我正在尝试让Mahout Shell在Cloudera QuickStart VM上运行。 Mahout: Version 0.11.1 Spark: Version 1.5.0-cdh5.5.1 Java: 1.7.0_67 .bashrc设置为 export MAHOUT_HOME=/home/cloudera/Desktop/Mahout_0_11_1 export MAHOUT_LOCAL=true export SPARK_HOME=/usr/lib/spark export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera 当我运行时，我会得到以

浏览 2提问于2016-02-04得票数 0

回答已采纳

1回答

将Spark RDD作为文本文件写入S3存储桶

scala、apache-spark、rdd、spark-dataframe、databricks

我正在尝试将Spark RDD保存为gzipped文本文件(或多个文本文件)到S3存储桶中。S3存储桶挂载到dbfs。我正在尝试使用以下命令保存该文件： rddDataset.saveAsTextFile("/mnt/mymount/myfolder/") 但是当我尝试这样做的时候，我一直收到错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 32 in stage 18.0 failed 4 times, most recent failure: Lost task 32.3

浏览 8提问于2016-09-05得票数 0

回答已采纳

1回答

为每个循环嵌套两个DataFrame

scala、apache-spark、apache-spark-sql

foreach循环嵌套的DataFrams迭代会抛出一个NullPointerException： def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = { val leftCols: Array[String] = leftDF.columns val riteCols: Array[String] = riteDF.columns leftCols.foreach { ltColName => leftDF.select(ltColName).foreach

浏览 1提问于2019-05-08得票数 2

回答已采纳

1回答

火花机学习: RDD变得不可读

scala、apache-spark、apache-spark-mllib、apache-spark-ml

我正在尝试将向量数据类型提供给一个名为mllib的Word2Vec函数。当Word2Vec返回一个包含所需向量的“结果”列的DataFrame时，需要一些代码。最后，当代码在Spark中成功运行时，我尝试使用.foreach来println几行代码。火花在这一步崩溃，有以下错误：NullPointerException。如果删除println命令，代码将运行良好。我试过使用RDD的示例方法，但同样的火花错误出现了。不知何故，RDD变得不可读了。若要了解此ML任务的背景，请参阅此。 import org.apache.spark._ import org.apache.spark.rdd._

浏览 0提问于2018-03-19得票数 1

回答已采纳

2回答

NullPointerException在Scala Spark中，似乎是由集合类型引起的？

scala、apache-spark

sessionIdList的类型为： scala> sessionIdList res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct at <console>:30 当我尝试运行下面的代码时： val x = sc.parallelize(List(1,2,3)) val cartesianComp = x.cartesian(x).map(x => (x)) val kDistanceNeighbourhood = sessionIdList.map(s => { ca

浏览 0提问于2014-05-22得票数 14

回答已采纳

1回答

如何将Spark与我的SQL数据库Scala连接

mysql、scala、apache-spark、apache-spark-sql

问题陈述：嗨，我是星火世界的新手。我想查询MySQL数据库，然后将一个表加载到Spark中。然后，我想使用SQL查询在表上应用一些过滤器。一旦过滤了结果，我想以JSON的形式返回结果。我们必须从一个独立的Scala应用程序中完成所有这些工作。我正在努力初始化星火上下文并得到一个错误。我知道我漏掉了一些信息。有人能看看密码然后告诉我该怎么做吗。代码： import application.ApplicationConstants import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{S

浏览 0提问于2019-08-19得票数 0

回答已采纳

1回答

如何并行安装火花分类器？

apache-spark、java-8、apache-spark-mllib

伙计们我有个奇怪的问题..。我试着训练这样的多类SVM分类器： JavaPairRDD<Tuple2<String, String>, SVMModel> jp = scmap.mapToPair(new PairFunction<Tuple2<Tuple2<String, String>, RDD<LabeledPoint>>,Tuple2<String, String>, SVMModel >(){ @Override public Tuple2<Tuple2<St

浏览 0提问于2015-01-16得票数 1

回答已采纳

2回答

Apache Spark MulticlassMetrics.precision()中的“索引1处的值为空”

python、apache-spark、pyspark

我在Apache spark (pyspark)中训练了一个逻辑回归模型，并用它评估了一些测试数据……像这样..。 # Split into train and test sets train, test = data.randomSplit([.8, .2], seed=1337) # Train a model model = LogisticRegressionWithLBFGS.train(train) # Print the coefficients print(model.weights) # Evaluate the test data predictions =

浏览 0提问于2016-03-17得票数 3

1回答

Apache火花:从检查点恢复状态的NPE

hadoop、apache-spark、hbase、spark-streaming

我们正在构建简单的流应用程序，它使用HBase RDD与传入的DStream连接。样本代码： val indexState = sc.newAPIHadoopRDD( conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]).map { case (rowkey, v) => //some logic} val result = dStream.transform { rdd => rdd.leftOuterJoin(indexState) } 它可

浏览 1提问于2017-02-16得票数 1

回答已采纳

1回答

Spark 2.0.2嵌套K-在rdds /嵌套rdd或数据帧或数据集中

scala、apache-spark、apache-spark-mllib

我正在尝试并行运行大量的k-means。我有一个房间和它的大量数据，我想计算每个房间的集群。所以我有 roomsSignals[(room:String, signals:List[org.apache.spark.mllib.linalg.Vector]] roomsSignals.map{l=> val data=sc.parallelize(l.signals) val clusterCenters=2 val model = KMeans.train(data, clusterCenters, 5) model.clusterCenters.map { r =>

浏览 0提问于2016-12-13得票数 1

1回答

运行NullPointerException时的Apache.spark

apache-spark、nullpointerexception

我试图在redshift上运行一个查询来提取数据，同样的查询工作在spark 2.0.2上，但是由于databricks不赞成这个旧版本，所以我移到了spark 2.2.1，并且在新环境中得到了下面的异常。任何帮助都是非常感谢的。简而言之，NullPointerException来自 org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter.write(UnsafeRowWriter.java:210) at java.lang.NullPointerException at“。我也试图禁用sparkConf

浏览 0提问于2018-06-25得票数 0

2回答

尝试插入Glue(s3)表格时使用PySpark - Emr- NullpointerException

apache-spark、pyspark、amazon-redshift、amazon-emr

我正在尝试插入到胶水目录表中，指向s3位置并读取Redshift。我得到了下面的错误，我可以直接写入s3而不会有任何问题。此问题是在尝试插入定义为拼接的拼花时出现的。 Spark 2.4 - EMR。在从redshift卸载数据并开始处理后的几分钟内就会出现这个问题。 19/12/08 20:44:44 ERROR Executor: Exception in task 410.0 in stage 1.0 (TID 944) java.lang.NullPointerException at org.apache.spark.sql.catalyst.expressions.Ge

浏览 21提问于2019-12-09得票数 0

回答已采纳

1回答

GraphX VertexRDD NullPointerException

scala、apache-spark、spark-graphx

我试图在图上传递一些消息来计算递归特性。当我定义一个顶点是aggregateMessages输出的图时，我会得到一个错误。上下文代码 > val newGraph = Graph(newVertices, edges) newGraph: org.apache.spark.graphx.Graph[List[Double],Int] = org.apache.spark.graphx.impl.GraphImpl@2091594b //This is the RDD that causes the problem > val result = newGraph.aggregat

浏览 5提问于2017-01-09得票数 1

回答已采纳

1回答

zipWithIndex on MapPartitionsRDD

scala、apache-spark

我有一个words，它是org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[11] at map，看起来像 Array(Array(cyber crimes, cyber security, review, india, instances, state, issue), Array(civil society, instances, frequency)) 现在，在上面执行flatMap和distinct以从RDD获得所有不同的单词之后，我得到 scala> val uniquewords = words.flatMap

浏览 2提问于2017-05-07得票数 0

回答已采纳

1回答

前环内火花NullPointerException

scala、foreach、nullpointerexception、apache-spark、rdd

我有RDD，我想循环它。我确实喜欢这样： pointsMap.foreach({ p => val pointsWithCoordinatesWithDistance = pointsMap.leftOuterJoin(xCoordinatesWithDistance) pointsWithCoordinatesWithDistance.foreach(println) println("---") }) 然而，NullPointerException正在发生： java.lang.NullPointerException at org.apache.

浏览 0提问于2014-10-27得票数 1

回答已采纳

3回答

累加器在群集上失败，在本地工作。

scala、mapreduce、apache-spark

在官方的星星之火文档中，有一个用于直接在RDD上的foreach调用中使用的累加器的示例： scala> val accum = sc.accumulator(0) accum: spark.Accumulator[Int] = 0 scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x) ... 10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s scala> accum.value res2: Int = 10

浏览 6提问于2013-07-22得票数 11

1回答

得到了NullPointerException，当我使用SparkStreaming来使用卡夫卡的信息时

scala、apache-spark、spark-streaming

我正在为Kafka和SparkStreaming编写一些代码，当我将它们放到Yarn集群上时，它报告了NullPointerException。但是它在我的电脑上工作得很好(独立模式)。那它有什么问题？ //这是代码 import java.util.Properties import org.apache.kafka.common.serialization.StringDeserializer import org.apache.log4j.Logger import org.apache.spark.sql.SparkSession import org.apache.spark.

浏览 1提问于2019-07-26得票数 0

1回答

如何在SparkR中建立logistic回归模型

r、hadoop、apache-spark

我对星火和SparkR都是新手。我已经成功地安装了火花和SparkR。当我试图用存储在HDFS中的csv文件建立Logistic回归模型时，我得到了“不正确的维度数”的错误。我的守则是： points <- cache(lapplyPartition(textFile(sc, "hdfs://localhost:54310/Henry/data.csv"), readPartition)) collect(points) w <- runif(n=D, min = -1, max = 1) cat("Initial w: ", w,

浏览 9提问于2014-09-26得票数 3

1回答

如何foreachRDD从卡夫卡的记录在星火流？

scala、apache-kafka、spark-streaming、apache-spark-1.6

我想运行一个以Kafka为数据源的Spark流应用程序。它在本地运行良好，但在集群中失败。我使用的是spark 1.6.2和Scala2.10.6。下面是源代码和堆栈跟踪。 DevMain.scala 对象DevMain通过日志记录{扩展应用程序 1.val lme: RawMetricsExtractor = new JsonExtractor[HttpEvent](props, topicArray) 2 val broadcastLme=sc.broadcast(lme) 3. val lines: DStream[MetricTypes.InputStreamType] = m

浏览 2提问于2016-12-26得票数 0

1回答

Jupyter + EMR + Spark -从本地计算机上的Jupyter笔记本连接到EMR群集

python、pyspark、jupyter、emr

我是PySpark和电子病历的新手。我尝试通过Jupyter notebook访问在EMR集群上运行的Spark，但遇到错误。我使用以下代码生成SparkSession： spark = SparkSession.builder \ .master("local[*]")\ .appName("Carbon - SingleWell parallelization on Spark")\ .getOrCreate() 尝试跟随访问远程群集，但出现错误： spark = SparkSession.builder \ .maste

浏览 4提问于2017-06-28得票数 2

1回答

SparkOnHBase:构建测试期间的NullPointerException "distributedScan“

java、hadoop、apache-spark、hbase

我对Hadoop、Spark和HBase都是新手。我试图用mvn clean package (Apache Maven 3.3.3)构建库。但我在构建过程中遇到了以下失败的测试： - distributedScan to test HBase client *** FAILED *** java.lang.NullPointerException: at org.apache.hadoop.net.DNS.reverseDns(DNS.java:92) at org.apache.hadoop.hbase.mapreduce.TableInputFormatBase.reverseDNS(

浏览 1提问于2015-09-29得票数 1

1回答

Spark rdd.RDD.take中的空指针异常

nullpointerexception、apache-spark

Spark在代码中不会给出非常详细的错误消息，但为了将来的参考，这个问题适用于任何得到Null指针异常的人，看起来像这样： java.lang.NullPointerException at org.apache.spark.rdd.RDD.take(RDD.scala:850) at org.apache.spark.rdd.RDD.first(RDD.scala:862) at modelBuilding$$anonfun$3.apply(modelBuilding.scala:46) at modelBuilding$$anonfun$3.apply(mo

浏览 0提问于2014-05-01得票数 1

1回答

火花RDD抛出NullPointerException

hadoop、apache-spark、hive、drools、apache-spark-sql

我面临的问题，当我试图从蜂箱表得到一些产品，并处理/应用罗尔斯在火花。 //function which return products from Hive table def getProductsList(hiveContext: org.apache.spark.sql.hive.HiveContext): scala.collection.mutable.MutableList[Product] = { val products = scala.collection.mutable.MutableList[Product]()

浏览 3提问于2016-05-05得票数 2

回答已采纳

1回答

Spark SQL无法完成写入包含大量分片的Parquet数据

hadoop、amazon-s3、apache-spark、parquet、apache-spark-sql

我正在尝试使用Apache Spark SQL将S3中的json日志数据转换成同样在S3上的Parquet文件。我的代码基本上是： import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) data.saveAsParquetFile("s3n://...") 当我有多达2000个分区，并且失败5000个或更多时，无论数据量是多少，这个代码都可以工作。通常，可以将分区合并到一个可接受的数量，但这是

浏览 3提问于2014-10-10得票数 9

1回答

spark pyspark mllib模型-当使用map生成预测rdd时，它在collect()上抛出异常。

apache-spark、pyspark、rdd、apache-spark-mllib

我使用的是spark 1.2.0 (无法升级，因为我无法控制它)。我正在使用mllib构建一个模型 points = labels.zip(tfidf).map(lambda t: LabeledPoint(t[0], t[1] )) train_data, test_data = points.randomSplit([0.6, 0.4], 17) iterations = 3 model = LogisticRegressionWithSGD.train(train_data, iterations) labelsAndPreds = test_data.map(lambda p: (

浏览 2提问于2015-08-26得票数 1

1回答

匹配UDF的Scala字符串

string、scala、apache-spark、user-defined-functions

import org.apache.spark.sql.functions.lit val containsString = (haystack:String, needle:String) =>{ if (haystack.contains(needle)){ 1 } else{ 0 } } val containsStringUDF = udf(containsString _) val new_df = df.withColumn("nameContainsxyz", containsStri

浏览 6提问于2021-11-06得票数 0

回答已采纳

1回答

即使日志有错误，也不能退出Dataproc Pyspark作业。

google-cloud-platform、pyspark、hadoop-yarn、google-cloud-dataproc、dataproc

在dataproc中，可以多次看到日志中的错误，但是作业不会退出并继续运行多个小时。任何解决这个问题的帮助都是非常感谢的。作业运行的数据也非常小。有时，在重新运行后，代码作业运行良好。但是它随机地处理了这个问题 Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : executor.scala:318) at org.apache.spark

浏览 7提问于2022-07-15得票数 2

1回答

NullPointerException写作时从火花到卡桑德拉

cassandra、azure-databricks、cassandra-3.0、spark-cassandra-connector

我使用火花-卡桑德拉-连接器-2.4.0-s2.11将数据从火花写到数据库集群上的Cassandra。当我从星火到卡桑德拉写数据时，我正在获取java.lang.NullPointerException。这件事很好，几乎没有记录。但是当我尝试加载~1.5亿记录时会遇到问题。有人能帮我找出根本原因吗？下面是代码片段： val paymentExtractCsvDF = spark .read .format("csv")

浏览 4提问于2019-11-23得票数 0

2回答

火花s3读取给NullPointerException

amazon-s3、apache-spark

我正在尝试处理来自S3文件系统的文件。我已经出口了AWS_ACCESS_KEY_ID和AWS_SECRET_ACCESS_KEY。我还设置了配置 hadoopConf.set("fs.s3.awsAccessKeyId","<key>") hadoopConf.set("fs.s3.awsSecretAccessKey","<secret>") 错误： [error] (run-main-0) java.lang.NullPointerException java.lang.NullPointerExc

浏览 7提问于2015-11-18得票数 4

2回答

从远程机器到MySql的JDBC连接

mysql、apache-spark、jdbc

我已经在Linux (在windows桌面)上安装了MySql，我正在尝试从运行在父windows操作系统上的Spark应用程序连接到MySql。在连接过程中，我遇到以下错误... 以下是示例代码 def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql") .setMaster("local[*]") .set("spark.sql.warehouse.dir", "file:///C:/temp") val spark

浏览 0提问于2018-09-26得票数 0

3回答

无法解析主网址：'spark.bluemix.net‘

apache-spark、ibm-cloud、rstudio、sparklyr、data-science-experience

我试图从运行在我的桌面计算机上的RStudio连接到，该服务运行在Bluemix上。我从运行在IBM体验上的自动配置的config.yml环境中复制了RStudio： default: method: "shell" CS-DSX: method: "bluemix" spark.master: "spark.bluemix.net" spark.instance.id: "myinstanceid" tenant.id: "mytenantid" tenant.

浏览 12提问于2017-03-07得票数 0

回答已采纳

2回答

Spark Scala - rdd distinct nullpointerexception异常

scala、apache-spark

我正在使用spark完成一些小步骤，我的练习是将一个JSON文件加载到RDD中，选择一个列，然后使用distinct来获得惟一的值。我过滤的列包含多个值(CSV行)，必须拆分。 val sqlContext = spark.sqlContext import org.apache.spark.sql.hive.HiveContext val hiveCtx = new HiveContext(sc) import hiveCtx.implicits._ val bizDF = hiveCtx.jsonFile("/home/xpto/Documents/PersonalProjects

浏览 5提问于2020-12-02得票数 0

1回答

带有NullPointerException UTF8String.getBaseObject()“输入”的火花模具为空

java、apache-spark

星星之火3.3.0在Windows 10上使用Java 17的一条简单管道正在崩溃。现在，它给了我以下内容： [ERROR] Job aborted due to stage failure: Task 0 in stage 8.0 failed 1 times, most recent failure: Lost task 0.0 in stage 8.0 (TID 5) (xps-13-9310 executor driver): java.lang.NullPointerException: Cannot invoke "org.apache.spark.unsafe.types

浏览 27提问于2022-09-22得票数 0

回答已采纳

2回答

星火广播变量在Amazon集群中运行时返回NullPointerException

apache-spark、amazon、broadcast、emr

我通过广播共享的变量在集群中为空。我的应用程序相当复杂，但我编写了这个小示例，当我在本地运行它时，它完美无缺地工作，但是在集群中失败了： package com.gonzalopezzi.bigdata.bicing import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd.RDD import org.apache.spark.{SparkContext, SparkConf} object PruebaBroadcast2 extends App { val conf = new SparkCo

浏览 3提问于2015-07-08得票数 9

回答已采纳

1回答

错误执行器: stage 6.0 spark scala中的任务0.0中出现异常？

scala、apache-spark、apache-spark-sql、spark-dataframe、user-defined-functions

我有一个如下所示的json文件。 {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} 我正在加载我的json文件。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.json("C:/Users/test/Deskto

浏览 0提问于2017-11-22得票数 3

回答已采纳