使用Scala/Spark列出目录中的文件(包括文件信息)

使用Scala/Spark列出目录中的文件（包括文件信息）可以通过以下步骤实现：

导入必要的库和模块：

import org.apache.spark.sql.SparkSession
import java.io.File

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("ListFiles")
  .master("local")
  .getOrCreate()

定义列出文件的函数：

def listFiles(directory: String): Array[File] = {
  val dir = new File(directory)
  if (dir.exists && dir.isDirectory) {
    dir.listFiles.filter(_.isFile)
  } else {
    Array[File]()
  }
}

val directory = "/path/to/directory"
val files = listFiles(directory)

打印文件信息：

files.foreach { file =>
  println("文件名：" + file.getName)
  println("路径：" + file.getAbsolutePath)
  println("大小：" + file.length)
  println("最后修改时间：" + file.lastModified)
  println("-----")
}

这样就可以使用Scala/Spark列出目录中的文件，并打印出文件的信息。

对于这个问题，腾讯云提供了适用于大数据处理的云原生产品TencentDB for Tendis，它是一种高性能、高可靠、分布式的NoSQL数据库，适用于大规模数据存储和处理。您可以通过以下链接了解更多关于TencentDB for Tendis的信息：TencentDB for Tendis产品介绍。

使用Scala/Spark列出目录中的文件(包括文件信息)

、、、

我是Scala/Spark的新手，希望你们能帮助我。我想在一个hdfs的目录中获取在某个时间戳之后创建的文件，以便在Zeppelin中进行一点监控。因此，我需要一个包含文件名、文件大小和modificationDate的列。我发现这对我来说很有效，可以获得我需要的所有信息： val fs = FileSystem.get(new Configuratio

浏览 18提问于2020-12-10得票数 1

回答已采纳

1回答

Dataframe转换产生空值。

、、、

除了元数据目录之外，我一直试图在目录中列出Parquet文件中的所有Spark数据。目录的结构如下所示： - time=19424145 - time=19424147主要目标是避免从_spark_metadata目录读取数据。filesDf.isEm

浏览 1提问于2020-07-01得票数 0

回答已采纳

3回答

使用Spark列出Hadoop HDFS目录中的所有文件？

、、

我想遍历Hadoop目录中的所有文本文件，并计算单词"error“的所有出现次数。有没有办法使用Apache Spark Scala API创建一个hadoop fs -ls /users/ubuntu/来列出目录中的所有文件？从给定的来看，spark上下文似乎只能通过以下内容单独访问<e

浏览 1提问于2014-04-29得票数 15

回答已采纳

1回答

spark-submit适用于Python程序，但pyspark不起作用

显而易见的是，我最近在UBUNTU (VMWARE工作站)上安装了SPARK。下面是我的电脑规格。我使用spark submit命令运行了一个示例程序，它完成得很好。但是当我尝试登录pyspark shell时，我得到了错误信息&quo

浏览 0提问于2016-05-07得票数 0

1回答

我能否获取存储在Azure Databricks上的文件的元数据或文件的状态

、、

正如我在标题中提到的，我很好奇是否可以获得一堆文件的元数据，基本上是blob中的所有文件，这些文件都加载到Azure Databricks上。我希望有一些通用的脚本，可以运行给出统计文件(主要是CSV格式)。我知道在SQL Server中获取表的各种统计数据非常容易，SQL Server也是Microsoft的一款产品。或者，也许可以生成某种类型的报告来显示<em

浏览 8提问于2019-06-21得票数 1

回答已采纳

1回答

Hdfs查找小于特定大小的文件

、、

有没有办法在Hdfs中列出小于特定大小的文件。使用命令行，甚至是spark脚本？Scala / spark会更好，因为与命令行相比，它可能运行得更快。我已经看过Apache FileSystem文档，但找不到太多信息。

浏览 20提问于2019-10-29得票数 1

回答已采纳

1回答

Scala中的导入状态集

、、、

我现在看一下星火的Github存储库。在类中，我试图了解如何组织导入语句。如果我在Scala中执行一个新项目并尝试在我的所有者Scala类中执行导入语句，那么我可以执行下一个导入：我已经从本地机器上的Github存储库下载了一个Spark包。例如，在存储库中</

浏览 5提问于2016-08-25得票数 0

回答已采纳

1回答

在Scala中并行运行函数

、、

我有一个Spark SQL函数，它在HDFS目录中生成临时文件。我想在函数运行时打印所有的目录和文件。下面是函数： spark.sql(s"INSERT INTO ${table} VALUES ....") 当函数/query运行时，我希望看到在HDFS目录下生成的文件。因为这些文件是临时的，所以我想在查询运行时列出几次目录。sc.

浏览 14提问于2020-09-03得票数 0

回答已采纳

1回答

使用power Shell或windows批处理文件的Spark代码自动化

、、、、

我有一个场景，在这个场景中，我们将apache与sql服务器连接起来，将表的数据加载到spark中，并从中生成aparquet文件。下面是我的代码片段：val jdbcDF = (spark.read.format("jdbc") .option("url", "jdbc:sqlservercom.microsoft.sqlserver.jdbc.

浏览 3提问于2021-12-15得票数 0

回答已采纳

1回答

不启动主目录

我在主目录上安装了spark，并在bash文件中给出了路径。现在，当使用“火花壳”调用时，火花就不会启动。bashrcexport PATH=$SCALA_HOME/bin:$PATH export SPARK_HOME=/home/spark/

浏览 5提问于2016-12-10得票数 1

回答已采纳

2回答

将两个存在于蜂箱中的表连接在一起

、、、

我已经在eclipse中编写了Java程序来连接两个表，但是我在package附近得到了一个错误，下面是错误 package joins; import org.apache.spark.SparkContext; importorg.apa

浏览 0提问于2015-10-26得票数 0

3回答

通过Spark读取保存在文件夹中的所有拼图文件

、、

我有一个包含拼图文件的文件夹。parquet")org.apache.spark.sql.AnalysisException: Unable to(DataSource.<em

浏览 0提问于2017-03-27得票数 13

回答已采纳

1回答

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

、、

通常情况下，如果我将Scala用于Spark作业，我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它，但有时对于非常轻量级的作业，我可能在笔记本中使用未编译的Scala代码，或者使用spark-shell REPL，在这里我假设SparkContext已经可用。对于其中的一些轻量级用例，我可以等效地使用PySpark并与gclo

浏览 2提问于2020-03-08得票数 5

回答已采纳

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图

浏览 20提问于2019-05-25得票数 0

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件scala> sc.stop() scala> import org.apache.

浏览 12提问于2018-12-21得票数 1

回答已采纳

6回答

无法安装pyspark

、

我正在尝试安装pyspark，如下所示：我得到了这个错误：已经安装了pypandoc

浏览 6提问于2018-07-24得票数 15

2回答

丝上的星火是如何处理文件的？

我正在使用Yarn在Spark中执行一个过滤器，并接收以下错误。任何帮助都很感激，但我的主要问题是为什么找不到文件。-aa00/05/merged_shuffle_1_343_1我可以配

浏览 3提问于2015-07-08得票数 10

回答已采纳

1回答

使用spark/scala将文件从子目录复制到hdfs中的基目录

、、、、

每次作业运行时，我都会在hdfs基本目录下创建文件夹。每个文件夹下都有.dat文件。例如。基目录：- /user/srav/子目录：- /user/srav/20190101 /user/srav/201

浏览 0提问于2019-10-30得票数 0

1回答

_spark_metadata引发问题

、、

我在Scala中使用Spark，我有一个目录，其中有多个文件。在这个目录中，我有由Spark生成的Parquet文件和由Spark流生成的其他文件。而星光流生成一个目录_spark_metadata。我面临的问题是，当我使用Spark (sparksession.read.

浏览 0提问于2018-11-26得票数 2

2回答

将scala-eclipse用于spark

、、

能帮我讲讲如何使用scala-eclipse IDE for spark吗？我偶然发现了这个链接- 。但是我不能理解它。我在spark目录中输入了命令- mvn -Phadoop2 eclipse:clean eclipse:eclipse，在一长串下载之后，它给了我一些错误。请帮帮忙。谢谢Reactor Summary:[INFO] Spark Project Parent POM ..............

浏览 4提问于2014-05-07得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Scala/Spark列出目录中的文件(包括文件信息)

相关·内容

使用Scala/Spark列出目录中的文件(包括文件信息)

Dataframe转换产生空值。

使用Spark列出Hadoop HDFS目录中的所有文件？

spark-submit适用于Python程序，但pyspark不起作用

我能否获取存储在Azure Databricks上的文件的元数据或文件的状态

Hdfs查找小于特定大小的文件

Scala中的导入状态集

在Scala中并行运行函数

使用power Shell或windows批处理文件的Spark代码自动化

不启动主目录

将两个存在于蜂箱中的表连接在一起

通过Spark读取保存在文件夹中的所有拼图文件

如何以Dataproc作业的形式运行未编译的Scala/shell代码？

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

无法安装pyspark

丝上的星火是如何处理文件的？

使用spark/scala将文件从子目录复制到hdfs中的基目录

_spark_metadata引发问题

将scala-eclipse用于spark

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐