使用spark/scala从HDFS目录获取所有csv文件名

Spark是一个开源的大数据处理框架，Scala是一种基于JVM的编程语言。下面是关于使用Spark/Scala从HDFS目录获取所有CSV文件名的完善且全面的答案：

概念： HDFS（Hadoop Distributed File System）是Apache Hadoop的一部分，是一个用于存储和处理大规模数据集的分布式文件系统。CSV（Comma-Separated Values）是一种常用的文本文件格式，用于存储表格数据。

分类：该问题涉及到以下几个方面的知识：

大数据处理框架：Spark
编程语言：Scala
分布式文件系统：HDFS
文件格式：CSV

优势：使用Spark/Scala从HDFS目录获取所有CSV文件名具有以下优势：

高性能：Spark是为大规模数据处理而设计的，具有优秀的性能和可伸缩性。
并行处理：Spark可以将任务分解成多个并行执行的任务，提高处理速度。
强大的API支持：Spark提供丰富的API，使得开发者能够快速处理和分析大规模数据。
分布式存储：HDFS的分布式特性能够将数据存储在多个节点上，提高了数据的可靠性和可扩展性。
灵活性：Scala作为一种功能强大的编程语言，具有丰富的库和框架，适用于各种场景。

应用场景：从HDFS目录获取所有CSV文件名的应用场景包括：

数据预处理：在数据分析和机器学习任务中，通常需要事先了解数据集中有哪些文件和表格。
数据管道：在数据管道中，需要获取数据流中的文件名，以便进行后续处理。
数据质量检查：在数据质量检查过程中，可以利用该功能识别CSV文件并验证其格式和内容。

推荐的腾讯云相关产品：腾讯云提供了一系列的云计算产品和服务，以下是几个相关的产品：

腾讯云对象存储（COS）：用于存储和管理大规模数据集，支持高并发访问和多地域容灾备份。产品介绍链接：腾讯云对象存储
腾讯云大数据计算服务：提供了云原生的大数据处理框架，包括Spark、Flink等，支持分布式数据处理和分析。产品介绍链接：腾讯云大数据计算服务
腾讯云虚拟专用服务器（CVM）：用于托管和运行Spark/Scala应用程序的虚拟机实例。产品介绍链接：腾讯云虚拟专用服务器

代码示例：以下是使用Spark/Scala从HDFS目录获取所有CSV文件名的代码示例：

import org.apache.spark.sql.SparkSession
import org.apache.hadoop.fs.{FileSystem, Path}

object GetCSVFileNames {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("Get CSV File Names from HDFS")
      .getOrCreate()

    val hdfsPath = "hdfs://your_hdfs_path"
    
    val fs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
    val csvFiles = fs.listFiles(new Path(hdfsPath), true)
      .filter(file => file.getPath.getName.endsWith(".csv"))
      .map(file => file.getPath.getName)
      .toList

    println("CSV File Names:")
    csvFiles.foreach(println)

    spark.stop()
  }
}

注意：需要将"your_hdfs_path"替换为实际的HDFS目录路径。

希望以上回答能够满足您的需求。如有任何疑问，请随时提问。

临时表上的多个SQL失败

、、

Spark Version: 1.6.2. 我注册了一个临时表，其数据源为HDFS，并对其进行了两次查询。然后作业因此错误而失败：错误ApplicationMaster: User类抛出异常： java.io.IOException:不是文件: hdfs://my_server:8020/2017/01/01 不是文件: hdfs://my_server:8020/2017/01/01在org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:322) at org.apache.spark.rd

浏览 1提问于2017-06-30得票数 2

2回答

Spark Dataset加载多个CSV文件，如果所有文件中的标头不相同，则报告不匹配

、、、、

我正在尝试使用spark 2.1.0 API将多个csv文件从hdfs目录加载到Spark DataSet中： val csvData = spark.read.option("header", "true").csv("csvdatatest/") 在"csvdatatest“文件夹中有多个csv文件。Spark只从第一个文件中选取头部，并将其生成为DataSet的架构，忽略其余csv文件的头部。e.g hadoop fs -ls /user/kumara91/csvdatatest Found 2 items /user/kumara

浏览 0提问于2017-11-06得票数 1

2回答

如何让Spark在Java中工作-无法初始化类org.apache.spark.util.Utils$

、

我正在尝试使用以下代码从java应用程序连接到独立的spark服务器 SparkConf sparkConf_new = new SparkConf() .setAppName("Example Spark App") .setMaster("spark://my.server.com:7077"); JavaSparkContext sparkContext = new JavaSparkContext(sparkConf_new); JavaRDD<String> stringJavaRDD = sparkContext.text

浏览 2提问于2016-11-23得票数 1

1回答

org/apache/spark/TaskOutputFileAlreadyExistException :java.lang.NoClassDefFoundError

、、、

我读过HDFS中的数据。我分析了它，但我在写作时得到了这个错误。错误的延续 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/TaskOutputFileAlreadyExistException at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:167) at or

浏览 0提问于2020-05-15得票数 0

回答已采纳

1回答

无法在spark中的Zeppelin上将文件写入远程hdfs

、、、、

如何在spark中将文件保存在hdfs服务器上以下是我的代码 csv_file.write.mode('overwrite').parquet('hdfs:///data/ifckp/docs/csv_files/cs') 下面是我的错误： Py4JJavaError: An error occurred while calling o3621.parquet. : org.apache.hadoop.security.AccessControlException: Permission denied: user=zeppelin, access=WRITE

浏览 25提问于2020-02-01得票数 0

2回答

如何利用spark.read函数在spark中并行处理文件

、、、

我有一个包含文件列表的文本文件。目前，我正在按顺序遍历我的文件列表我的文件列表如下所示： D:\Users\bramasam\Documents\sampleFile1.txt D:\Users\Documents\sampleFile2.txt 并为每个文件执行以下代码， val df = spark.read .format("org.apache.spark.csv") .option("header", false) .option("inferSchema", false) .option("delim

浏览 0提问于2018-05-24得票数 0

1回答

如何使用闪烁读取文件并使用Scala写入一个简单的文件？

、、、

我试图使用scala SparkStreaming程序读取一个文件。该文件存储在本地计算机上的一个目录中，并试图将其写入本地计算机本身上的一个新文件。但是，每当我写我的流，并将它作为地板存储，我最终得到空白文件夹。这是我的密码： Logger.getLogger("org").setLevel(Level.ERROR) val spark = SparkSession .builder() .master("local[*]") .appName("StreamAFile

浏览 1提问于2016-12-13得票数 0

回答已采纳

1回答

Apache Spark:运行命令从HDFS读取文件时出错

我已经尝试使用从HDFS加载文件，但我不能使用命令map reduce。我用来计算文件字数的命令： sc.textFile("hdfs:///user/darkntnt/input/zip_codes.csv") .flatMap(line => line.split(" ")) .map(word => (word,1)) .reduceByKey(_ + _) .collect() .foreach(println) 错误： java.io.IOException: Incomplete HDFS URI, no ho

浏览 1提问于2018-07-13得票数 0

1回答

从SystemML加载文件？

、

如何在systemML DSL中从HDFS加载csv文件？我试过这样的方法： X = read("hdfs://ip-XXX-XXX-XXX-XXX:9000/SystemML/data/NN_X_100_10.csv"); 我检查了文件实际上位于这个HDFS位置。当我运行dsl时： $SPARK_HOME/bin/spark-submit ~/Nearest_Neighbour_Search/SystemML/systemml-0.14.0-incubating.jar -f ~/Nearest_Neighbour_Search/SystemML/Task03_NN_S

浏览 2提问于2017-08-23得票数 1

回答已采纳

2回答

如何使用Spark从HDFS读取文件？

、、

我已经构建了一个使用Apache的推荐系统，它的数据集存储在我的项目文件夹中，现在我需要从HDFS访问这些文件。如何使用Spark从HDFS读取文件？我就是这样初始化我的星火会话的： SparkContext context = new SparkContext(new SparkConf().setAppName("spark-ml").setMaster("local") .set("fs.default.name", "hdfs://localhost:54310").set("f

浏览 0提问于2019-06-15得票数 2

回答已采纳

14回答

火花加载CSV文件作为DataFrame？

、、、、

我想在spark中读取CSV，并将它转换为DataFrame，然后用df.registerTempTable("table_name")存储在HDFS中。我试过： scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我发现的错误： java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 4

浏览 33提问于2015-04-17得票数 164

回答已采纳

1回答

如何使用scala从hdfs目录中删除所有文件

、、

对于我目前正在处理的Scala和Spark项目，我必须编写一个代码，检查我正在处理的hdfs目录是否为空，如果不是，我必须从目录中删除所有文件。在将代码部署到Azur之前，我将使用计算机上的本地目录对其进行测试。我首先要做的是:创建一个方法来删除这个目录中的所有文件。这就是我现在拥有的： object DirectoryCleaner { val spark:SparkSession = SparkSession.builder() .master("local[3]") .appName("SparkByExamples.com")

浏览 17提问于2022-04-08得票数 0

回答已采纳

5回答

如何在spark中使用parquet读写相同的文件？

、、

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： couldnt write parquet to file: An error occurred while calling o102.parquet. : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: TungstenExchange hashpartitioning(billID#42,200), None +- Union :-

浏览 0提问于2016-05-06得票数 8

1回答

如何监视火花流任务中的多个目录

、

我希望在火花流中使用fileStream来监视多个hdfs目录，例如： val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat]("/user/root/*/*", check_valid_file(_), false).map(_._2.toString).print 买的方式，我不能在三个类别的含义: LongWritable，文本，TextInputFormat 但不管用..。 java.io.FileNotFoundException: File /user/roo

浏览 1提问于2015-05-13得票数 0

2回答

使用SparkR 1.5从RStudio中的hdfs读取大文件(纯文本、xml、json、csv)的选项

、、

我是Spark的新手，我想知道除了下面这些选项之外，是否还有其他选项可以使用SparkR从RStudio中读取存储在hdfs中的数据，或者我是否正确使用它们。数据可以是任何类型(纯文本、csv、json、xml或任何包含关系表的数据库)和任何大小(1kb -几gb)。我知道不应该再使用textFile(sc，path)了，但是除了read.df函数之外，还有其他方法可以读取这类数据吗？以下代码使用read.df和jsonFile，但jsonFile生成错误： Sys.setenv(SPARK_HOME = "C:\\Users\\--\\Downloads\\spark-1.5.0

浏览 6提问于2015-09-15得票数 5

1回答

使用spark和scala将ListBuffer[List[Any]]值写入CSV

、、、

我现在重新提出了我的问题. 我在学习斯卡拉和火花。我知道直接从csv文件创建RDD，而不是创建DF并将其转换为RDD。但是，我正在尝试下面的组合。创建scala ListBuffer，Spark并将其转换为RDD： scala> import scala.collection.mutable.ListBuffer import scala.collection.mutable.ListBuffer scala> var src_policy_final = new ListBuffer[List[Any]] src_policy_final: scala.collection.

浏览 1提问于2018-11-28得票数 0

回答已采纳

1回答

无法从HDFS加载文件的火花数据

、、、

我在本地windows ( HDFS ://localhost:54310)路径/tmp/home/下存储了一个CSV文件。我想从HDFS加载这个文件来触发Dataframe。所以我尝试了 val spark = SparkSession.builder.master(masterName).appName(appName).getOrCreate() 然后 val path = "hdfs://localhost:54310/tmp/home/mycsv.csv" import sparkSession.implicits._ spark.sqlContext.read

浏览 2提问于2016-07-31得票数 2

回答已采纳

1回答

sqlContext.createDataFrame正在产生错误

我是非常新的火花环境，我试图导入一个csv文件到星火2.0.2。我正在Windows 10上使用pyspark。 from pyspark.sql.types import * import csv projectFile = sc.textFile("bankfull.csv",4) schema = StructType([StructField("int_field", IntegerType()),StructField("string_field", StringType())]) heade

浏览 0提问于2017-05-12得票数 0

回答已采纳

2回答

利用Spark/Scala在HDFS文件中实现迭代写入

、、

我正在学习如何使用Spark/Scala对HDFS中的文件进行读写。我无法写入HDFS文件，文件已创建，但它是空的。我不知道如何创建一个用于在文件中写入的循环。代码是： import scala.collection.immutable.Map import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ // Read the adult CSV file val logFile = "hdfs://zobbi01:90

浏览 1提问于2017-06-15得票数 1

1回答

运行火花壳中的第一条语句时出错。

、

我正在学习Apache，我正在遵循Spark的权威指南，大数据处理变得简单了。要运行的第一个语句是： val myRange = spark.range(1000).toDF("number") 在首先运行此语句之前，我通过运行以下命令启动了shell：火花壳启动火花壳后，一切都正确启动，但是当我运行第一个查询时，我到达了终端(可能是因为缺乏知识，或者是因为缺少一些我需要知道的东西)： arctic-oak2:~ abhijeet$ spark-shell --master local[*] Setting default log level to "

浏览 0提问于2018-02-26得票数 0

1回答

哪一种方式是最快的方式来读取几行的大hdfs dir使用火花？

、

我的目标是从一个大的hdfs dir中读取几行代码，我使用的是spark2.2 2.2。这个dir是由以前的星火作业生成的，每个任务在dir中生成一个小文件，因此整个dir大小为1GB，有数千个小文件。当我使用collect()或head()或limit()时，spark将加载所有文件，并创建数千个任务(在sparkUI中进行监视)，这需要花费大量时间，甚至我只想在这个dir中显示文件的前几行。那么，哪种方式是读取这个dir最快的方式呢？我希望最好的解决方案是只加载几行数据，这样可以节省时间。以下是我的代码： sparkSession.sqlContext.read.format(&#

浏览 0提问于2018-04-26得票数 1

回答已采纳

4回答

星星之火SQL SaveMode.Overwrite，获取java.io.FileNotFoundException并要求“刷新表tableName”

、

对于spark，我们应该如何从HDFS中的一个文件夹中获取数据，进行一些修改，并通过覆盖保存模式将更新后的数据保存到HDFS 中的同一个文件夹中，而不需要FileNotFoundException。 import org.apache.spark.sql.{SparkSession,SaveMode} import org.apache.spark.SparkConf val sparkConf: SparkConf = new SparkConf() val sparkSession = SparkSession.builder.config(sparkConf).getOrCreate(

浏览 4提问于2017-03-21得票数 18

2回答

两个星火DataFrame的简单连接失败与"org.apache.spark.sql.AnalysisException:无法解析列名“

、、、

更新--原来这与Databricks Spark阅读器创建DataFrame的方式有关。在下面的示例中，我使用Databricks CSV读取器读取人员并处理CSV，然后以Parquet格式将生成的DataFrame写入HDFS。我更改了代码以创建DataFrame：(类似于people.csv) JavaRDD<Address> address = context.textFile("/Users/sfelsheim/data/address.csv").map( new Function<String, Address>()

浏览 2提问于2015-09-02得票数 1

2回答

无法使用spark-sftp api将数据帧写入目标sftp服务器

、、

我正在尝试执行sftp，并将数据帧从spark-cluster写入到目标sftp服务器。代码在spark-shell中运行良好，但当我使用scala代码部署我的jar时，它会失败，并显示以下错误： *Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=abcuser, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x* 我试着在spark-shell中使用下面的代码，并且它是有效的： spark2-

浏览 14提问于2019-09-04得票数 2

5回答

Spark-Hadoop-> org.apache.hadoop.mapred.InvalidInputException:输入路径不存在

、

我在尝试将文件从hdfs读取到Spark时遇到错误。文件README.md存在于hdfs中 spark@osboxes hadoop]$ hdfs dfs -ls README.md 16/02/26 00:29:14 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable -rw-r--r-- 1 spark supergroup 4811 2016-02-25 23:38

浏览 13提问于2016-02-26得票数 7

1回答

Java spark无法从spark sql中的本地文件系统加载文件

、

我是个新手，在ubuntu 18.0上学习spark和java，没有显式的集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。在执行下面的代码时， SparkSession sparkSession = SparkSession.builder() .appName("sparksql").master("local[*]") .getOrCreate(); Dataset<Row> dataset = sparkSession.read()

浏览 6提问于2020-11-23得票数 2

1回答

将hdfs文件加载到spark上下文中

、、、、

我是新的星火/scala，需要从hdfs加载一个文件来启动。我在hdfs (/newhdfs/abc.txt)中有一个文件，我可以通过使用hdfs dfs -cat /newhdfs/abc.txt查看我的文件内容我这样做是为了将文件加载到星火上下文中。 spark-shell #It entered into scala console window scala> import org.apache.spark._; //Line 1 scala> val conf=new SparkConf().setMaster("local[*]"); scala>

浏览 3提问于2016-09-30得票数 2

回答已采纳

1回答

SparkR错误: HDFS上的根划痕dir: /tmp/hive应该是可写的

、、、、

我正在尝试初始化SparkR，但是我得到了一个权限错误。我的火花版本是火花-2.2.1-bin-hadoop2.6。我已经搜索了这个错误和如何解决它，我已经找到了几个相关的主题。但是，我无法使用与在这些主题中给出的解决方案(以及我尝试过的解决方案)相同的方法来解决这个问题，而是使用以下命令对/tmp/hive目录进行处理： sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive 有足够知识的人能给我另一个可能的解决方案吗？错误堆栈跟踪如下： $ sudo ./bin/sparkR R version 3.4.2 (2017-09-28) -- "

浏览 3提问于2017-12-19得票数 1

回答已采纳

1回答

在Spark中写入csv文件时，如何对齐数据栏标题？

、、、

在dataframe中，每一列第三列都分配固定的宽度，并将其存储回HDFS，但问题是我没有得到正确的对齐。这是我的代码： val hdfs=spark.read.option("header","true").option("inferSchema","true").csv("hdfs://localhost:9000/user/akshathasai/fixedwidth.csv").toDF() hdfs: org.apache.spark.sql.DataFrame = [Name: string, age

浏览 0提问于2019-01-31得票数 0

1回答

目录扩展在独立部署模式下不起作用: Apache

、、

我正尝试使用以下命令在独立的星火集群上部署一个使用Kafka主题作业的星火流： ./bin/spark-submit --class MaxwellCdc.MaxwellSreaming ~/cdc/cdc_2.11-0.1.jar --jars ~/cdc/kafka_2.11-0.10.0.1.jar, ~/cdc/kafka-clients-0.10.0.1.jar,~/cdc/mysql-connector-java-5.1.12.jar, ~/cdc/spark-streaming-kafka-0-10_2.11-2.2.1.jar 得到这个例外： Exception in thr

浏览 1提问于2018-05-29得票数 1

回答已采纳

1回答

dataframereader如何读取http？

、、、、

我的开发环境： Intellij Maven Scala2.10.6 win7 x64 Dependencies: <dependencies>  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10&

浏览 9提问于2017-09-07得票数 4

回答已采纳

1回答

当jar在HDFS中时，Spark作业不运行

、、

我正尝试在独立模式下运行spark作业，但是命令没有从HDFS文件中拾取，jar文件存在于HDFS.The位置，并且当我在本地模式下运行它时，它工作得很好。下面是我正在使用的命令 spark-submit --deploy-mode client --master yarn --class com.main.WordCount /spark/wc.jar 下面是我的程序： val conf = new SparkConf().setAppName("WordCount").setMaster("yarn") val spark = new S

浏览 52提问于2019-01-19得票数 0

回答已采纳

5回答

使用.csv读取星火中的sqlContext.read文件时出错

我正试图将csv文件读入星火中的数据文件，如下所示：我运行火花壳，就像：星星之弹-- .\spark-csv_2.11-1.4.0.jar;.\commons-csv-1.2.jar (我不能直接下载那些依赖项，这就是我使用--jars的原因) 使用以下命令读取csv文件： ( sqlContext.read.format("com.databricks.spark.csv").option("header"，"true").load("2008.csv") 但是，下面是我得到的错误消息： scala&

浏览 6提问于2016-04-07得票数 0

回答已采纳

2回答

读取Spark代码中的本地/linux文件，在Yarn集群模式下执行

、、、、

如何在丝簇模式下访问和读取星火中的本地文件数据。 local/linux file: /home/test_dir/test_file.csv spark-submit --class "" --master yarn --deploy_mode cluster --files /home/test_dir/test_file.csv test.jar 读取csv的星火代码： val test_data = spark.read.option("inferSchema", "true").option("header", &#

浏览 11提问于2022-02-04得票数 0

1回答

如何访问由--文件指定的文件？

、、

我正在尝试在derp.csv中阅读--files指定的内容，但没有找到路径。做什么？ spark2-shell --master yarn --files derp.csv scala> spark.read.csv("file:///derp.csv") org.apache.spark.sql.AnalysisException: Path does not exist: file:/derp.csv; at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSo

浏览 2提问于2018-03-20得票数 2

回答已采纳

2回答

将数据存储到本地文件系统将导致结果为空。

、

我们在AWS EMR上运行spark 2.3.0。以下DataFrame "df“是非空的，大小适中： scala> df.count res0: Long = 4067 下面的代码可以很好地将df编写到hdfs scala> val hdf = spark.read.parquet("/tmp/topVendors") hdf: org.apache.spark.sql.DataFrame = [displayName: string, cnt: bigint] scala> hdf.count res4: Long = 4067 但是，使用

浏览 0提问于2018-07-30得票数 18

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程：阅读S3中的JSON文档(此工作) 从S3中的拼花文件中读取(这也成功) 将对#1和#2的查询的结果写入S3中的拼花文件(也成功) 从相同的存储桶#3中读取配置csv文件。(这失败了) 下面是我在代码中

浏览 4提问于2017-02-03得票数 0

1回答

在Kerberized集群中读取Spark应用程序中的HDFS文件

、、、、

我使用Hortonworks数据平台2.5安装了Hadoop集群，其中还包括Ambari 2.4、Kerberos、Spark1.6.2和HDFS。例如，我有以下用户的Kerberos主体和键标签： spark (由Ambari在Kerberos启用期间创建) hdfsuserA (由kadmin -> add_principle创建) 在受保护的集群中运行spark-submit命令需要用户spark-submit，而Spark应用程序必须在hdfsuserA (700)拥有的HDFS目录/user/hdfsuserA/...中打开一些文件。由于我启用了Kerber

浏览 3提问于2016-12-02得票数 3

回答已采纳

1回答

Scala -如何合并HDFS位置的增量文件

、、、、

我的要求是我有一个多HDFS位置，每小时从Kafka摄取文件。因此，对于每个目录，如何将特定时间戳的所有文件合并到当前时间戳作为单个拼图文件，并在下一次将文件从上次合并的时间戳合并到当前时间戳，并在将来重复相同的操作。这是我在Spark Scala工作中要做的所有事情，所以不能使用普通的shell脚本。如有任何建议，欢迎光临。

浏览 18提问于2020-10-17得票数 0

1回答

使用spark/scala从hdfs读取csv

、、、

我使用的是spark 2.3.0和hadoop 2.9.1，我尝试使用spark加载hdfs中的CSV文件 scala> val dataframe = spark.read.format("com.databricks.spark.csv").option("header","true").schema(schema).load("hdfs://127.0.0.1:50075/filesHDFS/data.csv") 但我得到以下错误： 2018-11-14 11:47:58 WARN FileStreamSink:66

浏览 1提问于2018-11-15得票数 0

1回答

齐柏林星火解释器(sc.textFile)投掷NoSuchMethodError

、

退伍军人齐柏林飞艇版本:0.7-快照版本。火花1.6 CDH 5.7.1 斯卡拉2.10 sc.textFile导致 java.lang.NoSuchMethodError: org.apache.hadoop.fs.BlockLocation.<init>([Ljava/lang/String;[Ljava/lang/String;[Ljava/lang/String;[Ljava/lang/String;[Ljava/lang/String;JJZ)V val dataset=sc.textFile("/tmp/expenses.csv") dataset.

浏览 2提问于2016-11-15得票数 0

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说默认情况下，为每个HDFS分区创建一个分区，默认为64 is。我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。但是，当我将文件加载到我的Shell中时，我得到了9个分区： scala> val tokenized_logs = sc.textFile("Reviews.csv") tokenized_logs: org.apache.spark.rdd.R

浏览 1提问于2018-12-01得票数 1

回答已采纳

1回答

在Scala中注册上一个DF之后创建一个DF

、、

我是Scala的一个新开发人员，我想问你我的问题。我有两个巨大的数据文件，我的第二个数据文件是从第一个dataframe计算的(它包含一个不同于第一个的列)。为了优化我的代码，我考虑了以下方法：在HDFS中将我的第一个数据文件注册为.csv文件然后简单地读取这个.csv文件来计算第二个数据。因此，它写道： //val temp1 is my first DF writeAsTextFileAndMerge("result1.csv", "/user/result", temp1, spark.sparkContext.hadoopCon

浏览 0提问于2019-02-16得票数 0

1回答

Databrick csv找不到本地文件

、

在一个从excel中提取csv的程序中，我需要将csv上传到hdfs，并将其保存为拼板格式，无论是python版本还是spark版本，都不需要scala。我遇到的几乎所有讨论都是关于数据库的，但是，似乎找不到文件，下面是代码和错误： df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("delimiter","

浏览 0提问于2018-11-13得票数 0

回答已采纳

1回答

在hdfs目录之间移动文件，作为scala应用程序的aprt

、、

当我在星火应用程序中的两个HDFS文件夹之间移动文件时，我面临着问题。我们使用Spark2.1版本和Scala作为编程语言。我导入了org.apache.hadoop.fs包和“rename”方法，作为移动文件的工作，因为我找不到在该包中“在hdfs文件夹之间移动文件”的方法。代码如下。 import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, Path} def move_files(fileName, fromLocation:String, toLocat

浏览 0提问于2018-06-20得票数 1

回答已采纳

3回答

如何使用scala将不同的文件名传递给spark

、、

我在cluster上有以下代码： def main(args: Array[String]) { val spark = SparkSession.builder.appName("SparkData").getOrCreate() val sc = spark.sparkContext sc.setLogLevel("ERROR") import spark.implicits._ import spark.sql //----------Write Logic Here---------------------

浏览 2提问于2021-09-29得票数 0

2回答

Scala:如何从hdfs dir中获取最大分区

、、

我在用scala。我想过滤最新的文件夹，只读取最新的和它中的所有文件从hdfs dir。现在看起来就像 val read_csv = spark .read .format("csv") .load( "hdfs://device/signs/load=16») 在文件夹signs中，很少有加载的文件夹(load=10、load=13、load=14、load=16)，我只想得到最大值。

浏览 2提问于2022-10-24得票数 1

回答已采纳

2回答

纱线罐上的火花上传问题

、、、

我正在尝试使用spark运行一个简单的Map/Reduce java程序(ClouderaHadoop5.2在CentOS上)。我试过这两种不同的方法。第一种方法是： YARN_CONF_DIR=/usr/lib/hadoop-yarn/etc/hadoop/; /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/bin/spark-submit --class MRContainer --master yarn-cluster --jars /var/tmp/spark/spark-1.4.0-bin-hadoop2.4/lib/spark-assembly-

浏览 1提问于2015-06-17得票数 4

回答已采纳

1回答

火花结构流失败双到检查点文件找不到

、、

我正在测试env上运行火花结构化流。有时，找不到某个检查点文件的作业失败。其中一个原因可能是卡夫卡的主题保留时间很短。但我已经将.option("failOnDataLoss", "false")添加到SparkSession中了。我对火花检查点有一些基本的(非常基本的)理解。如果删除检查点dir，我认为应该恢复它。但是，正如我测试的那样，一旦发生了这个错误，删除dir就没有帮助了。我需要使用不同的检查点dir来修复它。为什么删除检查点dir不起作用？或者是否有一种方法/选项可以帮助避免此错误？ diagnostics: User class t

浏览 0提问于2018-02-02得票数 8

1回答

缓冲区/容量错误将数据存储为星火中的地板

、、

我在PySpark将数据作为分区的拼花文件写入Hadoop时遇到了问题。这样做的效果很好： salesDfSpark.write.option("header",True) \ .partitionBy("Country") \ .mode("overwrite") \ .csv("hdfs://master:9000/sales/{}_{}.csv".format(csvName,epochNow)) #Hadoop Namenode at port 9000 print(

浏览 87提问于2022-06-11得票数 0