从pyspark应用程序记录到本地或hdfs文件

我在pyspark中有一个应用程序，其中包含包含日志语句的闭包函数，我不知道如何将消息记录到pyspark中的本地/hdfs文件中。我尝试了下面的方法，但不起作用：from pyspark import SparkContext def parse_json(text_line

浏览 3提问于2016-07-04得票数 3

1回答

用PySpark读取Cloudera项目中的文件

、、、

我的Cloudera项目中有一个文件位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我的“本地”CDSW项目中读取PySpark，但无法使用以下任何命令。

浏览 2提问于2018-10-30得票数 0

回答已采纳

1回答

如何使用python在spark中加载sql文件

、、

我的pySpark版本是2.4，python版本是2.7。我有多行sql文件，需要在spark中运行。与逐行运行不同的是，是否可以将sql文件保存在python (初始化spark)中，并使用submit执行它？我正在尝试用python编写一个通用脚本，以便以后只需要从hdfs文件夹中替换sql文件。import sysimport pyspark.sql.functions

浏览 8提问于2022-02-10得票数 -3

1回答

PySpark无法将文件从本地移动到HDFS

、、

我正在本地8020端口的机器上运行hadoop。我的名字节点存在于path /usr/local/Cellar/hadoop/hdfs/tmp/dfs/name下。我已经使用Conda安装了一个pySpark项目，并安装了pyspark和hdfs3依赖项。以下是我的代码：from hdfs3 import HDFil

浏览 2提问于2021-06-25得票数 1

回答已采纳

2回答

在AWS上使用Apache-Spark加载数据

、、、、

我已经创建了一个主节点和两个从节点。在主节点上，我有一个目录data，其中包含要处理的所有csv格式的数据文件。据我所知，我认为这是因为每个从节点都需要知道数据文件在其本地文件系统中的位置，以便能够加载数据文件。，它从其本地文件系统加载数据文件。但是，在提交应用程序运行之前，我们还必须使用$ .每个从节点是否从自己的本地文件系统

浏览 1提问于2015-07-23得票数 0

1回答

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

、、

我一直在玩HDFS和Spark。我已经在我的网络上设置了一个五个节点集群，运行HDFS、Spark，并由Yarn管理。工作人员正在以客户端模式运行。从主节点，我可以很好地启动PySpark外壳。对于是否以及如何在这个集群上运行python/Pyspark文件，我有几个问题。如果我在其他地方有一个带有PySpark调用的python文件，比如在我的本地dev笔记本电脑上或者在某个地方的码头容器上，那么有什么方法可以在本

浏览 45提问于2022-10-11得票数 0

回答已采纳

1回答

我需要安装Hadoop才能使用Pyspark的所有方面吗？

、、、

我已经安装了pyspark，但没有单独安装任何hadoop或spark版本。显然，在Windows下，pyspark需要访问Hadoop的winutils.exe来做一些事情(例如，将文件写入磁盘)。当pyspark想要访问winutilis.exe时，它会在HADOOP_HOME环境变量(用户变量)指定的文件夹的bin目录中查找它。因此，我将winutils.exe复制到pyspark (.\site-packages\pyspark\bin)的bi

浏览 4提问于2020-03-24得票数 1

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

、、、、

我有一个c#应用程序，可以创建拼花文件并将其上传到远程HDFS。如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从S

浏览 0提问于2018-12-04得票数 0

3回答

加载本地文件(而不是HDFS)在Spark失败

、

我有一个问题--如何用sc.textFile在PySpark上加载本地文件(不是在HDFS上，也不是在PySpark上)。这是非常有帮助的，你给我很好的建议，如何加载本地文件。我确认了从HDFS或S3 works加载文件。以下是从HDFS

浏览 7提问于2016-02-01得票数 20

1回答

Apache Tika无法解析HDFS文件

、、、

我使用的代码如下：import urllib3在linux上，如果我给出一个本地路径，tika可以解析，但是对于hdfs路径，我得到一个 Spark I/O error: No such file

浏览 0提问于2018-03-13得票数 1

1回答

Pyspark在纱线集群模式下将文件写入本地

、、、

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我用来提交spark-submit命令的用户是超级用户，并且拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行，没有任何错误，但没有创建输出目录或文件。有人能帮帮忙吗？

浏览 12提问于2019-07-16得票数 2

2回答

从hdfs将avro文件加载到pyspark数据格式中

、、、、

我已经构建了一个小的数据管道，它将一些虚构的测试数据从本地目录(json-格式)移动到hdfs (avro格式)。这似乎是正确的(没有由水槽显示的错误)，但错误可能已经存在于这里。现在让我解释一下我是如何做到的，这样您就可以看到我可能失败的地方了：我的目标是将json数据从本地目录推送到HDFS，这样我就可以使用pySpark由于json对HDFS</em

浏览 1提问于2018-09-03得票数 1

3回答

Spark local vs hdfs* permormance*

、、

我在同一台机器上有一个Spark集群和一个Hdfs。我已经在每台机器的本地文件系统和hdfs分布式文件系统上复制了一个大约3G字节的文本文件。为什么？我所期望的结果正好相反。在sgvd的请求后添加： 16个从</e

浏览 0提问于2016-01-13得票数 5

2回答

如何使用pyspark读取hdfs* kafka数据？*

、、、、

我正在尝试读取通过Kafka和SparkStreaming获取的HDFS存储的数据。我使用的是一个Java应用程序，它使用JavaRDD.saveAsTextFile方法将一些任意数据保存到Hadoop。consumerRecordJavaRDD.saveAsTextFile("/tmp/abcd_" + System.currentTimeMillis());一个文本文件行被推入卡夫卡数据保存在本地主机:50070的默认hadoop浏览器中。然后

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

反序列化内存中的Hadoop序列文件对象

、、、、

Pyspark有一个函数sequenceFile，它允许我们读取存储在HDFS中的序列文件，或者所有节点都可以使用的本地路径。例如，我正在处理的应用程序(不能更改应用程序逻辑)运行一个火花作业，它将该文件写入非HDFS兼容的文件系统，然后我可以作为内存中的python字节对象检索该文件，该对象似乎只包含一个序列化的序列对象，而我应该能够在内存中反序列化该对象因为这个对象已经在内存中(因为我无法控制)，所以我必须反序列

浏览 15提问于2021-12-08得票数 1

2回答

无网络接入的CDH集群如何安装parckage(如mmlspark)？

、、、、

/shell.py: 尝试手动安装我有一个亚马逊ec2实例，它可以访问maven.org，我下载了所有包并复制到本地CDH集群，路径/opt/cloudera/parcels/CDH/lib/spark但import mmlspark仍然是ModuleNotFoundError: No module named 'mmlspark' 通过一些努力我发现:解压mmlspark.jar，压缩文件夹里面的mmlspark并放到hdfs( hdfs

浏览 278提问于2020-07-29得票数 4

回答已采纳

1回答

从群集的所有计算机访问HDFS文件

、、、、

我的hadoop程序最初是以本地模式启动的，现在我的目的是以完全分布式模式启动。)，有必要还提供对所有集群上到达映射器功能输入的文件的访问权限。在这方面我有一个问题:是否可以直接使用hdfs-files :即预先从Linux的文件系统复制文件到HDFS的文件系统(因此，我假设，这些文件在集群的所有计算机上都是可用的，请纠正)，然后使用HDFSJava API读取这些文件，在集群的计算机上执行的reducer和mapp

浏览 1提问于2013-02-13得票数 0

1回答

DBUtils下载文件但文件不在本地

、、、、

我试图在databricks之外使用来自DBUtils的pyspark.dbutils，它显示在本地复制文件时没有警告或错误，但是文件不在目标文件夹中。我可以用dbutils.fs.ls检查该文件是否存在于DBFS上，并且文件确实存在。output = subprocess.check_output((

浏览 14提问于2022-09-12得票数 2

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

在oozie失败的情况下提交的Pyspark操作：“[Errno 2]没有此类文件或目录”

、、、、

我试图通过oozie工作流在hadoop集群上提交对纱线的基本火花操作，并得到以下错误(来自纱线应用程序日志)：EDIT3: 参见下面的堆栈跟踪。Diagnostics: File does not exist: hdfs://hdfs/path/user&

浏览 8提问于2017-09-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用PySpark读取Cloudera项目中的文件

如何使用python在spark中加载sql文件

PySpark无法将文件从本地移动到HDFS

在AWS上使用Apache-Spark加载数据

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

我需要安装Hadoop才能使用Pyspark的所有方面吗？

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

加载本地文件(而不是HDFS)在Spark失败

Apache Tika无法解析HDFS文件

Pyspark在纱线集群模式下将文件写入本地

从hdfs将avro文件加载到pyspark数据格式中

Spark local vs hdfs* permormance*

如何使用pyspark读取hdfs* kafka数据？*

反序列化内存中的Hadoop序列文件对象

无网络接入的CDH集群如何安装parckage(如mmlspark)？

从群集的所有计算机访问HDFS文件

DBUtils下载文件但文件不在本地

将数据保存到HDFS的格式是什么？

在oozie失败的情况下提交的Pyspark操作：“[Errno 2]没有此类文件或目录”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐