迭代hdfs目录中pyspark中的文件

文章/答案/技术大牛

发布

1回答

pyspark

我在hdfs目录中有文件列表，我想迭代hdfs目录中pyspark中的文件，并将每个文件存储在一个变量中，并使用该变量进行进一步处理。toSeq([class org.apache.hadoop.fs.Path]) does not exist InputDir = "/Data/Ready/ARRAY_COUNTERS&q

浏览 24提问于2019-09-10得票数 3

回答已采纳

1回答

如何使用python在spark中加载sql文件

python、apache-spark、pyspark

我的pySpark版本是2.4，python版本是2.7。我有多行sql文件，需要在spark中运行。与逐行运行不同的是，是否可以将sql文件保存在python (初始化spark)中，并使用submit执行它？我正在尝试用python编写一个通用脚本，以便以后只需要从hdfs文件夹中替换sql文件。下面是我的代码片段。import sys from pyspark</em

浏览 8提问于2022-02-10得票数 -3

1回答

为什么我的GCP脚本/笔记本找不到我的文件？

google-cloud-platform、pyspark

我有一个工作脚本，当数据文件与脚本位于同一个目录时，它会找到数据文件。这既适用于我的本地机器，也适用于谷歌Colab。PySpark笔记本：上传包含wget命令的.ipynb文件。这没有错误地下载文件，但我不确定它保存到哪里，脚本也找不到该文件(我假设是因为我告诉它该文件位于同一个目录中，并且在默认情况

浏览 0提问于2021-04-30得票数 0

1回答

PySpark与访问HDFS

python、hadoop、apache-spark、pyspark

我试图获得一个文件，我已经复制到HDFS，但我似乎不清楚如何真正连接。例如，我使用以下命令将文件放在HDFS中：这很好，但是现在问题是如何从PySpark中找到它们。火花点到：的文档我使用的是与hadoop2.6相匹配的spark版本，但在上面的链接指向的目录中看不

浏览 6提问于2015-06-24得票数 1

回答已采纳

2回答

pyspark遍历hdfs目录并将数据加载到多个表中

python、dataframe、pyspark、hive、pyspark-dataframes

我在hdfs的hdfs目录中有多个csv文件：/project/project_csv/file2.csv现在，在我的pyspark程序中，我希望根据文件数量遍历路径，每次都希望将数据存储到一个dataframe

浏览 3提问于2020-11-06得票数 1

1回答

如何访问安装在hdfs头节点群集中的pyspark

hadoop、pyspark、jupyter-notebook、hdfs、cluster-computing

我有一个由hadoop集群组成的头节点，我看到pyspark安装在hdfs集群中，即我可以在hdfs user.But内使用pyspark shell，用户头节点没有安装pyspark。因此，我无法访问hdfs中的文件并将其带到jupyter笔记本中我是否可以使用jupyter笔记本中hdfs中的pys

浏览 45提问于2019-01-22得票数 0

2回答

Spark无效的检查点目录

apache-spark、spark-graphx

我在我的程序中有一个长时间的迭代，我想每隔几次迭代就缓存和检查点(这个技术被建议用来减少web上的长历史)，所以我不会有StackOverflowError，通过这样做 //and perform a transformation我像这样设置了检查点目录val sc = new SparkContext(con

浏览 2提问于2015-09-05得票数 2

回答已采纳

2回答

pyspark、hdfs

我正在使用pyspark在hdfs中处理一个文本文件。如果我使用简单的hdfs命令，比如"hdfs dfs -cat hdfs:///data/msd/tasteprofile/mismatches/sid_matches_manually_accepted.txt但是如果我像下面这样使用pyspark命令，它会一直返回"Errno 2没有这样<

浏览 42提问于2021-05-23得票数 1

2回答

从hdfs将avro文件加载到pyspark数据格式中

python、apache-spark、pyspark、apache-spark-sql、avro

我已经构建了一个小的数据管道，它将一些虚构的测试数据从本地目录(json-格式)移动到hdfs (avro格式)。这似乎是正确的(没有由水槽显示的错误)，但错误可能已经存在于这里。现在让我解释一下我是如何做到的，这样您就可以看到我可能失败的地方了：我的目标是将json数据从本地目录推送到HDFS</em

浏览 1提问于2018-09-03得票数 1

3回答

Pyspark - FileInputDStream:查找新文件时出错

apache-spark、pyspark、spark-streaming

您好，我是Python Spark的新手，我正在尝试Spark github中的这个示例，以便计算在给定目录中创建的新文本文件中的字数：from pyspark.streaming import StreamingContext if

浏览 0提问于2016-12-27得票数 3

1回答

RandomForestRegressionModel是如何存储在HDFS中的？

apache-spark、pyspark、hdfs

我正在将一个pyspark.ml.regression.RandomForestRegressionModel保存到HDFS：) model.save("random_forest")[username@node ~]$ hdfsuser/username/ra

浏览 0提问于2019-07-17得票数 3

回答已采纳

2回答

如何在Spark上删除拼图文件？

python、apache-spark、parquet

我已经使用DataFrame.saveAsParquet()命令在Spark上保存了一个拼图文件。如何通过python代码删除/移除此文件？

浏览 2提问于2016-06-03得票数 3

回答已采纳

2回答

Pyspark :如何根据日期获取特定的文件，以便从文件列表中加载到数据文件中

dataframe、apache-spark、pyspark、delta-lake

我试图从一组文件中加载一个特定的文件。示例:我有这种格式的app_name_date.csv格式的hdfs文件，在目录中有100个这样的文件。我想根据日期将csv文件加载到dataframe中。spark.read.csv("hdfs://XXXXX/app/app_name_+$currentdate+.csv

浏览 8提问于2022-03-02得票数 0

1回答

在hadoop中使用cat命令时，没有这样的文件或目录

python、hadoop、command-line、terminal

我在一个目录中有两个文件，一个名为word_mapper.py，另一个名为README.md。我尝试在hadoop中使用这些文件，但是当我运行命令hadoop fs -cat README.md | python3 word_mapper.py时，我从终端得到以下响应： 2021-02-12 14

浏览 1提问于2021-02-13得票数 0

1回答

如何迭代目录中的每个输入文件，并使用这些文件中的值，我们可以生成单独的输出文件。

linux、bash、shell、hadoop、ksh

我在hdfs目录中有一些输入文件。我需要读取特定代码的每个文件，并为hdfs路径本身中的每个输入文件生成输出文件。我尝试使用一个'for循环‘，但是它只占用整个目录一次，然后为所有源文件生成一个输出文件。这是我试过的密码：- hdfs_input='inputfil

浏览 1提问于2021-11-15得票数 0

点击加载更多