Spark/Hadoop无法读取根文件

Spark和Hadoop是两个流行的大数据处理框架，它们可以处理大规模数据集并提供高性能的分布式计算能力。然而，Spark和Hadoop默认情况下无法直接读取根文件。

根文件是指存储在文件系统根目录下的文件，例如"/file.txt"。由于安全和权限的考虑，Spark和Hadoop设计时限制了对根文件的直接访问。

为了解决这个问题，可以采取以下几种方法：

将根文件移动到特定目录：将根文件移动到Hadoop分布式文件系统（HDFS）或其他支持的文件系统中的特定目录，例如"/data/file.txt"。这样，Spark和Hadoop就可以通过指定完整的文件路径来读取文件。
使用Hadoop的分布式缓存：将根文件添加到Hadoop的分布式缓存中，然后在Spark或Hadoop作业中使用分布式缓存来读取文件。分布式缓存可以将文件复制到集群中的每个节点上，使得每个节点都可以访问文件。
使用其他文件系统：如果根文件无法移动或使用分布式缓存，可以考虑使用其他支持的文件系统，如Amazon S3、Tencent COS等。这些文件系统提供了更灵活的文件访问权限，可以直接读取根文件。

总结起来，要解决Spark和Hadoop无法读取根文件的问题，可以将根文件移动到特定目录、使用Hadoop的分布式缓存或者使用其他支持的文件系统。这样就能够在Spark和Hadoop中成功读取根文件。

腾讯云相关产品推荐：

对于Hadoop，腾讯云提供了弹性MapReduce（EMR）服务，详情请参考：https://cloud.tencent.com/product/emr
对于Spark，腾讯云提供了弹性MapReduce（EMR）服务和云原生Spark服务，详情请参考：https://cloud.tencent.com/product/emr 和 https://cloud.tencent.com/product/tispark

页面内容是否对你有帮助？

有帮助

没帮助

Spark从每个节点读取文件，类似于Hadoop的DistribuitedCache

、、

我在主节点中有一个应该由每个节点读取的文件。我如何才能做到这一点呢？在Hadoop的MapReduce中，我使用了 DistribuitedCache.getLocalCacheFiles(context.getConfiguration()) Spark是如何在节点之间共享文件的？我必须在RAM和广播变量中加载文件吗？或者我只能指出(绝对的？)SparkContext配置中的文件路径是否立即可用于所有节点？

浏览 0提问于2017-04-12得票数 0

2回答

将数据存储到本地文件系统将导致结果为空。

、

我们在AWS EMR上运行spark 2.3.0。以下DataFrame "df“是非空的，大小适中： scala> df.count res0: Long = 4067 下面的代码可以很好地将df编写到hdfs scala> val hdf = spark.read.parquet("/tmp/topVendors") hdf: org.apache.spark.sql.DataFrame = [displayName: string, cnt: bigint] scala> hdf.count res4: Long = 4067 但是，使用

浏览 0提问于2018-07-30得票数 18

回答已采纳

2回答

使用Hadoop Mapreduce比较两个Excel文件

、、、、

我是Hadoop和Mapreduce的新手。我需要使用mapreduce比较两个excel文件。我必须去mapreduce，因为这些文件的大小将非常大(>10 go )。我的问题是如何从不同的映射器获得两个不同的输入文件，并在Reducer.I中比较这两个文件。我必须将此应用程序转换为jar并在Amazon EMR.I中运行它。我无法在web中找到适用于此的教程。请为我提供一些想法来做这件事。

浏览 0提问于2016-11-28得票数 0

1回答

在hadoop迭代作业中将相同的字符串(先前的结果)附加到每个拆分的mapreduce输入文件上

、、

我是Hadoop的新手，我正在编写一个迭代的MapReduce作业。我知道，使用Hadoop，从一个大数据集开始，它将被拆分为小文件，而不是将它们作为输入发送到不同机器上的映射函数。我只是成功地在输出文件的末尾附加了MapReduce的结果，但是这样，通过迭代作业，这个结果将只发送到一台机器上。因此，我希望将结果附加到发送到每台机器的每个拆分文件中，这样任何机器都可以看到前面的结果。我该怎么做呢？

浏览 1提问于2014-05-26得票数 0

回答已采纳

3回答

在Amazon Elastic MapReduce和S3中读取参数文件

、、、、

我正尝试在亚马逊弹性MapReduce系统中运行我的hadoop程序。我的程序从本地文件系统获取一个输入文件，其中包含程序运行所需的参数。但是，由于该文件通常是使用FileInputStream从本地文件系统中读取的，因此在亚马逊网络服务环境中执行该任务时会失败，并出现错误，指出未找到参数文件。请注意，我已经将文件上传到亚马逊S3。我如何解决这个问题？谢谢。下面是我用来读取参数文件并随后读取文件中参数的代码。 FileInputStream fstream = new FileInputStream(path); FileInputStream os = new Fil

浏览 2提问于2012-12-14得票数 0

3回答

火花加载文件:路径不存在

、、、、

我是星火的新手。我试图在EMR集群中读取本地csv文件。该文件位于: /home/hadoop/。我正在使用的脚本是这个： spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \ .config("spark.some.config.option", "some-value") \ .getOrCreate()\ df = spark.read.csv('/home/hadoop/observations_t

浏览 13提问于2017-02-07得票数 21

回答已采纳

5回答

什么是" Hadoop“-Hadoop的定义？

、、、、

这是很明显的，我们都会同意，我们可以称HDFS + YARN + MapReduce为Hadoop。但是，在Hadoop生态系统中，不同的其他组合和其他产品会发生什么呢？例如，HDFS + YARN + Spark仍然是Hadoop吗？HBASE是Hadoop吗？我想我们考虑的是HDFS + YARN + Pig Hadoop，因为Pig使用MapReduce。只是MapReduce工具被认为是Hadoop，但是在HDFS + YARN上运行的任何其他工具(比如火花)都是非Hadoop。

浏览 18提问于2015-01-24得票数 13

回答已采纳

2回答

Hadoop MapReduce中两个文件的比较

、、

嗨，我是Hadoop和mapreduce的新手.我想知道这样的事情是否可能发生。我试着通过Mapreduce比较两个文件。第一个文件可能如下所示： t1 r1 t2 r2 t1 r4 第二个文件将如下所示： u1 t1 r1 u2 t2 r3 u3 t2 r2 u4 t1 r1 我希望它根据文件发出u1、u3和u4。第二个文件将比第一个文件大得多。我不太确定如何比较这些文件；这在一个MapReduce作业中可行吗？如果有必要的话，我愿意把MapReduce的工作联系起来。

浏览 6提问于2015-10-07得票数 0

回答已采纳

2回答

在Amazon EMR 4.0.0上，设置/etc/spark/conf/spark-env.conf无效

、、、

我在Amazon EMR上启动了我的基于spark的hiveserver2，它有一个额外的类路径依赖。由于Amazon EMR中的此错误：我的类路径不能通过"--driver-class-path“选项提交所以我必须修改/etc/spark/conf/spark-env.conf来添加额外的类路径： # Add Hadoop libraries to Spark classpath SPARK_CLASSPATH="${SPARK_CLASSPATH}:${HADOOP_HOME}/*:${HADOOP_HOME}/../hadoop-hdfs/*:${HADOOP_HO

浏览 0提问于2015-09-30得票数 2

4回答

日志下载可以通过qpi自动下载么？

、

请描述您的问题标题：日志管理 - 内容分发网络 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/228/6316

浏览 482提问于2018-02-28

3回答

用windows7电脑访问云存储时( mount 时)出现网络错误(53)？

请描述您的问题标题：常见问题 - 文件存储 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/582/9551

浏览 3596提问于2018-02-12

2回答

为什么Spark将Map阶段输出保存到本地磁盘？

、、

我正试着深入理解火花洗牌过程。当我开始阅读时，我发现了以下几点。完成后，火花将映射任务(ShuffleMapTask)输出直接写入磁盘。我想了解下面的w.r.t到Hadoop MapReduce。如果MapReduce和Spark都将数据写入本地磁盘，那么火花洗牌过程与Hadoop MapReduce有何不同？既然数据在Spark中被表示为RDD，那么为什么这些输出不留在节点执行器内存中呢？ Hadoop、MapReduce和Spark的映射任务的输出有何不同？如果有很多小的中间文件作为输出，那么火花如何处理网络和I/O瓶颈？

浏览 6提问于2016-02-18得票数 8

2回答

EMR6.x上S3A的S3Guard和拼图魔术提交程序

、、

我们使用的是带有Spark 2.3.0和S3Guard的cdh5.13。在EMR 5.x / 6.x上使用相同的资源运行相同的作业后，我们的性能下降了5-20倍。根据的默认提交者(从5.20开始)对S3A不好。我们测试了EMR-5.15.1，并获得了与Hadoop上相同的结果。如果我尝试使用，我会得到 py4j.protocol.Py4JJavaError: An error occurred while calling o72.save. : java.lang.ClassNotFoundException: org.apache.spark.internal.io.cloud.PathO

浏览 0提问于2020-11-25得票数 0

1回答

我需要有一个数据库，不知道腾讯云有没有这样的服务？

、

我需要有一个数据库，超过50T的，像网盘一样，可以存储。因为经常要传输超过单个30G以上的文件，腾讯云能解决吗

浏览 169提问于2021-05-08

4回答

火花基本面

、、

我对火花很陌生..。在复习基本面时，我不太清楚一些基本的事情：查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统)，还是需要一些基本的分布式文件系统，如HDFS、GPFS等。查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块)，那么Spark将再次将其转换为块，并在其级别上重新分发(用于分布式处理)，或者只使用Haddop HDFS集群中的块分发。查询3.除了定义DAG之外，SPARK还像MapReduce那样创建分区，并将分区洗牌到还原器节点以进行进一步的计算？我也对此感到困惑，在DAG创建之前，很明显，在每个工

浏览 7提问于2015-08-24得票数 1

回答已采纳

1回答

在客户端模式下运行应用程序时触发读取本地文件的位置

我正在部署一个spark 独立的集群。172.16.133.15是一个由两名工人组成的主机群，全部在一台机器中，部署在ubuntu14.10中。正如文档所述，我可以使用“客户端模式”或“集群模式”运行应用程序。我的问题是： 1)在客户端模式(在windows机器中)运行应用程序时，在哪里加载文件？ SparkConf conf = new SparkConf().setAppName("Test") .setMaster("172.16.133.15")

浏览 1提问于2018-07-05得票数 0

回答已采纳

2回答

大数据:Sqoop-导出错误

、、

我对这个世界很陌生。在使用sqoop运行导出命令时，我得到以下错误：“不存在hdfs://quickstart.cloudera:8020/home/cloudera/Test5”.输入路径：我已经检查了路径/home/cloudera/Test5，该文件存在于路径中。从sqoop配置的core-site.xml文件中可以看到hdfs路径的详细信息，当我通过文件浏览器对其进行测试时，只需打开IE并键入hdfs://quickstart.cloudera:8020/home/cloudera/Test5，消息就会显示为“无法连接”。我不知道该属性的正确参数值。请帮我解决这个问题。请在下面查找属

浏览 9提问于2015-10-01得票数 0

2回答

Hadoop MapReduce的用途

、、、

目前，我正在阅读一些关于Hadoop和流行的MapReduce算法的论文。但是，我看不到MapReduce的价值，如果有人能给我一些见解，我会很高兴的。具体地说：据说，MapReduce接收一个文件并生成密钥值对。什么是钥匙？只是一个词，一个词的组合还是别的什么？如果关键是文件中的单词，那么为MapReduce编写代码的目的是什么？MapReduce应该在不实现特定算法的情况下做同样的事情。如果所有东西都被转换成键值对，那么Hadoop所做的仅仅是创建一个字典，比如在JAVA和C#中，wright？也许Hadoop可以更有效地创建字典。除了效率之外，Hadoop还提供了一个普通字典

浏览 7提问于2016-01-05得票数 1

2回答

如何才能看到什么RDD是可用的火花？

、

我才刚开始使用星火。我试着遵循教程(我使用Python)。作为前两句话，我看到以下两句话： Spark的主要抽象是一个称为弹性分布式数据集(RDD)的分布式项集合。RDDs可以从Hadoop InputFormats (例如HDFS文件)创建，也可以通过转换其他RDDs来创建。让我们从Spark源目录中自述文件的文本中创建一个新的RDD 据我正确理解，星火可以“访问”分布在属于星火运行的集群的不同机器上的项目。这些项目可以想象为文件(或者至少可以从文件中获得)。特别是，通过执行以下措施： textFile = sc.textFile("test.txt") 我们使用&

浏览 6提问于2015-12-02得票数 0

3回答

用Java实现Hadoop映射整个文件

、、、

我正尝试在java中使用Hadoop来处理多个输入文件。目前我有两个文件，一个大文件要处理，一个小文件作为索引。我的问题是，当大文件分发给每个映射器时，我需要维护完整的索引文件。Hadoop提供了任何方法来制造这样的东西吗？如果没有正确地表达自己，这里有一个链接，它代表了我正在尝试实现的目标：更新：按照圣地亚哥提供的说明，我现在能够将文件(至少是URI )从亚马逊的S3插入到分布式缓存中，如下所示： job.addCacheFile(new Path("s3://myBucket/input/index.txt").toUri()); 然而，当映射器试图读取它时，会出现

浏览 3提问于2014-06-20得票数 0

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark/Hadoop无法读取根文件

相关·内容

Spark从每个节点读取文件，类似于Hadoop的DistribuitedCache

将数据存储到本地文件系统将导致结果为空。

使用Hadoop Mapreduce比较两个Excel文件

在hadoop迭代作业中将相同的字符串(先前的结果)附加到每个拆分的mapreduce输入文件上

在Amazon Elastic MapReduce和S3中读取参数文件

火花加载文件:路径不存在

什么是" Hadoop“-Hadoop的定义？

Hadoop MapReduce中两个文件的比较

在Amazon EMR 4.0.0上，设置/etc/spark/conf/spark-env.conf无效

日志下载可以通过qpi自动下载么？

用windows7电脑访问云存储时( mount 时)出现网络错误(53)？

为什么Spark将Map阶段输出保存到本地磁盘？

EMR6.x上S3A的S3Guard和拼图魔术提交程序

我需要有一个数据库，不知道腾讯云有没有这样的服务？

火花基本面

在客户端模式下运行应用程序时触发读取本地文件的位置

大数据:Sqoop-导出错误

Hadoop MapReduce的用途

如何才能看到什么RDD是可用的火花？

用Java实现Hadoop映射整个文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐