使用文件名作为参数的Spark Scala读取Excel文件时出错_在Scala IDE中读取spark代码中的avro文件时出错_使用Scala和Spark读取文本文件中的键值对，使用Scala和Spark将键作为列名，将值作为行 - 腾讯云开发者社区

excel、scala、apache-spark

有人能帮我用Spark Scala Read API读取excel文件吗？我尝试使用Databricks Runtime6.5和6.6 (Apache Spark 2.4.5，Scala2.11)将com.crealytics:spark-excel_2.11:0.13.1(从Maven)安装到集群，但只有在对文件路径进行硬编码的情况下才能正常工作。val df = spa

浏览 50提问于2020-07-29得票数 0

1回答

无法从azure blob存储容器中读取xlsx文件到pyspark数据帧

apache-spark、pyspark、azure-blob-storage、databricks、azure-databricks

我正在尝试将数据从Azure存储容器加载到Azure Databricks中的Pyspark数据框架。当我读取txt或CSV文件时，它正在工作。但是，当我试图读取.xlsx文件时，我会得到以下问题。ApacheSpark3.2.0，Scala2.12spark.conf.set("fs.azure.account.key.teststorage.blob.core.windows.

浏览 11提问于2022-05-12得票数 0

1回答

从我的Azure Blob存储中获取Excel数据时发生的数据库火花放电错误

pyspark、azure-databricks

我想使用Databrick在Blob存储Azure Gen2中读取一个包含多个工作表的excel文件。我已经安装了maven包。下面是我的代码：.option("header", "true") \.option("m

浏览 11提问于2021-12-08得票数 1

回答已采纳

1回答

在databricks中Excel文件是我的源文件时如何创建数据框

scala、apache-spark、spark-excel

我有一个Excel文件作为源文件，我想从Excel文件中读取数据，并使用数据库在DataFrame中转换数据。我是Scala的新手。val df = spark.read.format("com.crealytics.spark.excel") .option("location", "/FileStor

浏览 6提问于2019-05-07得票数 0

2回答

用apache读取excel文件

scala、apache-spark、apache-spark-sql、spark-excel

(阿帕奇星火公司的新产品)Spark v3.0 Maven配置是： <dependency>(DefaultSource.scala:28

浏览 8提问于2020-07-08得票数 0

回答已采纳

2回答

如何将变量参数传递给我的scala程序？

scala、apache-spark

我是scala spark的新手。这里我有一个单词计数程序，其中我将输入文件作为参数传递，而不是硬编码并读取它。我不知道如何将文件名(在代码中)作为参数传递到我的主类中import org.apache.spark.SparkConf importword,1)).reduceByKey(

浏览 15提问于2019-07-28得票数 0

2回答

从本地文件中读取星火流给NullPointerException

apache-spark、nullpointerexception、spark-streaming

使用Spark2.2.0在OS高级塞拉利昂。我正在运行一个Spark流应用程序来读取本地文件：java.lang.NullPointerException at scala.collection

浏览 1提问于2018-03-14得票数 3

回答已采纳

2回答

spark.read.excel -使用自定义架构时不读取所有Excel行

excel、scala、apache-spark、apache-spark-sql、schema

我正在尝试从一个'excel‘文件中读取一个火花DataFrame。我利用了克赖克主义的依赖性。没有任何预定义的架构，所有行都将正确读取，但仅作为字符串类型列读取。为了防止这种情况，我使用了自己的模式(其中我提到了某些列为Integer类型)，但在本例中，大多数行在读取文件时都会删除。Build.sbt中使用的库依赖

浏览 6提问于2021-12-31得票数 0

1回答

尝试通过com.crealytics.spark.excel读取excel文件时出现scala.MatchError

excel、apache-spark、spark-excel

我正在尝试通过com.crealytics.spark.excel读取excel文件。但在尝试运行我的代码时，我遇到了以下错误： scala.MatchError: Map(treatemptyvaluesasnulls -> true, location -> a.xlsx, useheader-> true, inferschema -> False, addcolorcolumns -> False) (of cla

浏览 257提问于2019-09-17得票数 0

2回答

如何传递一组输入文件(而不是目录)来激发作业并在这些文件的基础上创建数据

scala、dataframe、apache-spark

我想传递一组avro文件作为输入，以激发作业，并在这些文件之上创建dataframe。(我不想将文件放在目录中并将目录作为输入传递)。但是，当我试图运行星火

浏览 4提问于2019-09-28得票数 0

回答已采纳

1回答

如何将Spark添加到PySpark中

apache-spark、apache-spark-sql

我试图将xlsx读取到PySpark，并尝试以多种方式导入Spark库，但在读取xlsx文件时仍然会出现错误。我在我的Mac上使用了Spark的独立模式。我的代码：spark_path = "/spark/spark-3.0.1-bin-hadoop2.7" f

浏览 6提问于2021-03-04得票数 0

回答已采纳

1回答

PathNotFound错误消息: openFileForRead必须与文件而不是目录一起使用

python、apache-spark、pyspark、databricks、azure-databricks

我使用下面的代码来使用读取excel文件： .read \ .optionoption("inferSchema", "true") \ .load(sSourcePath)#.withColumn("SourceFile",F.input_

浏览 4提问于2021-09-06得票数 2

回答已采纳

1回答

由于依赖问题，无法使用spark-excel导出数据帧

excel、scala、dataframe、apache-spark-sql、sbt

我想使用spark-excel库将数据框导出到Excel文件。我可以运行Spark作业，指定要与参数一起使用的依赖项，但我希望它只使用sbt文件来打包应用程序(我知道它应该是几乎相同的东西)。-2.11/metrologie_2.11-0.1.jar 当使用此方法时，它不起作用。下面是我如何使用--package运行它

浏览 0提问于2019-08-27得票数 2

2回答

在spark* scala函数中将List作为参数传递会导致错误*

scala、apache-spark

我有一个spark scala udf，它接受一个参数作为dataframe的列，另一个参数作为列表，但当我运行该函数时，它抛出错误，指向列表参数为我正在运行udf，参数如下： udf_name($"column_name"

浏览 2提问于2018-08-19得票数 0

1回答

火花- hadoop论点

scala、hadoop、apache-spark、hdfs

我同时运行hadoop和S火星，我想使用来自hdfs的文件作为火花提交的一个参数，所以我在hdfs中创建了一个文件夹--例如。/user/hduser/test/input，我想运行spark提交如下： $SPARK_HOME/bin/spark-submit --master spark://admin:7077 .&

浏览 2提问于2017-08-09得票数 0

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

scala、apache-spark、google-cloud-dataproc

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gclo

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答

用于excel文件的google集群中的NoSuchMethodError

pyspark、google-cloud-dataproc

当在dataproc集群中使用Excel文件时，会得到错误的java.lang.NoSuchMethodError。 py4j.protocol.Py4JJavaError:调用o74.howString时出错。：：scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mut

浏览 9提问于2022-09-29得票数 2

2回答

Spark :如何在Eclipse IDE开发中提供"--properties-file“选项

eclipse、apache-spark、spark-streaming

我使用Eclipse开发我的spark应用程序，当从命令行运行时，我使用如下命令：谢谢Alok

浏览 0提问于2016-03-28得票数 0

1回答

RDD遍历中的Spark* & Scala - NullPointerException*

scala、apache-spark、rdd

我有许多CSV文件，需要通过文件名的一部分将它们合并到RDD中。_2.csv 20140201_1.csv 20140201_3.csv 我需要将名为20140101*.csv的文件组合到一个RDD中来处理，等等。我使用sc.wholeTextFiles读取整个目录，然后根据文件名的模式对文件名进行分组，以形成一个文件名字符串。然后，我将字符串传递给sc.textFile，将文件</e

浏览 3提问于2015-07-21得票数 0

回答已采纳

2回答

textFile中的defaultMinPartitions

apache-spark

我最近开始在纱线上使用spark，在调优我的程序时发现了一个问题。当SparkContext被初始化为sc并准备从hdfs读取文本文件时，将调用textFile(path, defaultMinPartitions)方法。我跟踪了spark源代码中的第二个参数，最终找到了这个参数：CoarseGrainedSchedulerBackend.scala中的conf.getInt(&q

浏览 2提问于2014-07-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云