如何在Scala中本地读取HDFS中的文本文件(不使用Spark)？

在Scala中本地读取HDFS中的文本文件可以通过使用Hadoop的HDFS API来实现，而不依赖于Spark。下面是一个示例代码：

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}

object HDFSFileReader {
  def main(args: Array[String]): Unit = {
    val conf = new Configuration()
    val hdfs = FileSystem.get(conf)

    val filePath = new Path("hdfs://<HDFS地址>/<文件路径>")
    val inputStream = hdfs.open(filePath)

    try {
      val content = scala.io.Source.fromInputStream(inputStream).mkString
      println(content)
    } finally {
      inputStream.close()
      hdfs.close()
    }
  }
}

在上面的代码中，首先创建一个Configuration对象，并获取Hadoop的FileSystem实例。然后，通过指定HDFS中文件的路径创建一个Path对象。接下来，使用FileSystem的open方法打开文件的输入流。最后，通过scala.io.Source读取输入流中的内容，并将其打印出来。

需要注意的是，你需要将<HDFS地址>替换为实际的HDFS地址，<文件路径>替换为要读取的文件在HDFS中的路径。

这是一个简单的示例，你可以根据实际需求进行扩展和优化。关于Hadoop的HDFS API的更多信息，你可以参考腾讯云的Hadoop HDFS API文档。

如何使用spark上下文访问web URL

我尝试使用textFile方法从spark-shell中使用WEB，但出现错误。也许这不是正确的方式。所以谁能告诉我如何从火花上下文访问web URL。我使用的是spark版本1.3.0；Scala版本2.10.4和Java 1.7.0_21hduser@ubuntu:~$ spark-shell at

浏览 0提问于2015-04-20得票数 9

回答已采纳

1回答

将字符串保存到HDFS会为每个字符创建换行符

、、

我有一个从本地系统读取并上传到HDFS的纯文本文件。我使用Spark/Scala代码读取文件，将文件转换为字符串，然后使用saveAsTextFile函数指定要保存文件的HDFS路径。注意，我之所以使用coalesce函数，是因为我希望保存一个文件，而不是拆分该文件。import scala.io.Source val fields

浏览 1提问于2014-11-17得票数 1

1回答

如何从Scala代码中读取HDFS文件

、

我是Scala和HDFS的新手：import scala.io.source def>0) { println(line) } 在争论<em

浏览 1提问于2017-07-23得票数 3

3回答

如何将.sql文件加载到Scala？

、、

我将一个很长的SQL查询存储在一个data.sql文件中。我想在我的Scala代码中执行这个文件。对于sql字符串，我使用spark.sql( sqlQuery )来执行sqlQuery。

浏览 0提问于2018-05-09得票数 3

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件scala> sc.stop() scala

浏览 12提问于2018-12-21得票数 1

回答已采纳

2回答

在HDFS中将Spark流数据写入和附加到文本文件

、、、

我正在创建一个spark scala代码，在其中我从MQTT服务器读取一个连续的流。我在纱线集群模式下运行作业。我想在HDFS中将此流保存并附加到单个文本文件中。任何人都能帮上忙。

浏览 30提问于2017-02-08得票数 3

1回答

在提交Apache Spark作业时在spark.jars中使用通配符

我有一组JAR，我想要提供给我的Spark作业，存储在HDFS上。Spark2.3的文档中说spark.jars就是这样的参数： spark.jars: Comma-separated list of jars to include on the driver and(Utils.scala:692) at org.apache.spark.util.Utils$.fetchFile(Uti

浏览 0提问于2018-05-08得票数 9

1回答

只在hdfs中读取火花

、、

我已经用HDFS设置了一个Spark集群配置，并且我知道在HDFS示例中，Spark将读取默认的文件路径：有时，我想知道如何在没有reConfig我的集群

浏览 2提问于2014-11-28得票数 4

回答已采纳

1回答

使用scala从HDFS读取输入xml数据

、、、

我正在尝试使用Scala中的Xml load来解析Xml文件。但是这个程序不能从HDFS读取输入数据。它只能从本地文件系统读取。import org.apache.spark.SparkConfimport scala.col

浏览 12提问于2017-03-16得票数 0

1回答

用火花读写hdfs中的图像

、、、

嗨，我正在尝试从本地文件系统读取一个图像文件，并通过spark和scala将其存储在HDFS文件系统中。op.printSchema() //root |-- _1: string(nullable = true) |-- _2: string (nullable

浏览 1提问于2018-03-19得票数 0

2回答

本地加载Spark数据不完整的HDFS URI

、、

我遇到了在本地CSV文件中加载SBT的问题。基本上，我已经用Scala Eclipse编写了一个Spark程序，它读取以下文件：这在hdfs上工作得很好，但出于调试原因，我希望从本地目录加载此文件，我已将其设置为项目目录中。默认情况下，它似乎运行在Hadoop环境

浏览 0提问于2015-03-16得票数 5

回答已采纳

1回答

在Spark程序中访问Oozie配置

、、

我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。然而，当我尝试使用Oozie调度我的程序时，程序抛出一个错误，它无法读取环境变量。<start to='spark-node' /> <action name='sp

浏览 1提问于2020-01-14得票数 0

2回答

无法读取java星火中的文件

、、

我试图使用eclipse在java上运行spark程序。如果我只是在控制台上打印一些东西，但是我无法使用textFile函数读取任何文件，它就在运行。我在某个地方读到，读取文件只能使用HDFS完成，但我无法在本地系统中完成。请让我知道如何访问/读取文件，如果使用HDFS，那么如何在我的本地系统中安装<

浏览 1提问于2016-08-03得票数 1

回答已采纳

1回答

为什么我不能在EMR上用打开本地文件

、、、

我在工作时使用AWS电子病历。如果启动星火外壳，我可以运行scala命令，但不能在本地文件中读取。例如：org.apache.spark.sql.AnalysisException: Pathdoes not exist: hdfs://ip-10-99-99-99.ec2.in

浏览 1提问于2020-01-09得票数 0

回答已采纳

1回答

如何将HDFS中承载的配置文件传递给Spark应用程序？

、、、、

我在处理星火结构的流媒体。另外，我还在与Scala合作。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如；spark { master: "", etc.. etc.. redisSi

浏览 1提问于2019-05-07得票数 1

回答已采纳

13回答

如何在sc.textFile中加载本地文件，而不是HDFS

、

我在跟踪伟大的$ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bashbash-4.1# ls README.md README.md/bin/spark</em

浏览 11提问于2014-12-04得票数 118

回答已采纳

1回答

如何在Scala中本地读取HDFS中的文本文件(不使用Spark)？

、、、、

我知道我可以像这样读取Scala中的本地文件： println(line)这个代码字很好，并打印出文本文件中的行。我知道我可以在这个服务器上读取

浏览 22提问于2020-05-30得票数 1

1回答

如何在没有重复的情况下将一些文件加载到Spark节点？

为了某些统计目的，我在主服务器上有一些文本文件要由Spark集群处理。例如，主服务器上有1.txt、2.txt、3.txt，它们位于指定的目录中，如/data/，我希望使用Spark集群处理所有这些文件一次。如果使用sc.textFile(“/data/*..txt”)加载所有文件，集群中的其他节点将无法在本地文件系统中找到这些文件。但是，如果我在每个节点上<

浏览 2提问于2017-03-01得票数 2

回答已采纳

1回答

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

、、

我正在使用spark读取压缩文件这为我提供了RDD[string]形式的数据。如何在scala中将其转换为RDD[(Array[Byte], Array[Byte])]？我在spark上使用terasort。默认情况下，terasort不写入压缩输出HDFS。要解决此问题，请将以下代码添加到Tera

浏览 3提问于2016-10-26得票数 0

1回答

Java spark无法从spark* sql中的本地文件系统加载文件*

、

我是个新手，在ubuntu 18.0上学习spark和java，没有显式的集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。下面的错误即将到来： 20/11/23 16:07:46 WARN NativeCodeLoader: Unable to load native-hadoop for your platform...在适用的情况下使用内置(InMemoryFileIndex.

浏览 6提问于2020-11-23得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Scala中本地读取HDFS中的文本文件(不使用Spark)？

相关·内容

如何使用spark上下文访问web URL

将字符串保存到HDFS会为每个字符创建换行符

如何从Scala代码中读取HDFS文件

如何将.sql文件加载到Scala？

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

在HDFS中将Spark流数据写入和附加到文本文件

在提交Apache Spark作业时在spark.jars中使用通配符

只在hdfs中读取火花

使用scala从HDFS读取输入xml数据

用火花读写hdfs中的图像

本地加载Spark数据不完整的HDFS URI

在Spark程序中访问Oozie配置

无法读取java星火中的文件

为什么我不能在EMR上用打开本地文件

如何将HDFS中承载的配置文件传递给Spark应用程序？

如何在sc.textFile中加载本地文件，而不是HDFS

如何在Scala中本地读取HDFS中的文本文件(不使用Spark)？

如何在没有重复的情况下将一些文件加载到Spark节点？

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

Java spark无法从spark* sql中的本地文件系统加载文件*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐