腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
从
pyspark
应用程序
记
录到
本地
或
hdfs
文件
我在
pyspark
中有一个
应用程序
,其中包含包含日志语句的闭包函数,我不知道如何将消息记
录到
pyspark
中的
本地
/
hdfs
文件
中。我尝试了下面的方法,但不起作用:from
pyspark
import SparkContext def parse_json(text_line
浏览 3
提问于2016-07-04
得票数 3
1
回答
用
PySpark
读取Cloudera项目中的
文件
、
、
、
我的Cloudera项目中有一个
文件
位于"/home/cdsw/npi.json“之下。我尝试使用以下命令
从
我的“
本地
”CDSW项目中读取
PySpark
,但无法使用以下任何命令。
浏览 2
提问于2018-10-30
得票数 0
回答已采纳
1
回答
如何使用python在spark中加载sql
文件
、
、
我的
pySpark
版本是2.4,python版本是2.7。我有多行sql
文件
,需要在spark中运行。与逐行运行不同的是,是否可以将sql
文件
保存在python (初始化spark)中,并使用submit执行它?我正在尝试用python编写一个通用脚本,以便以后只需要从
hdfs
文件
夹中替换sql
文件
。import sysimport
pyspark
.sql.functions
浏览 8
提问于2022-02-10
得票数 -3
1
回答
PySpark
无法将
文件
从
本地
移动到
HDFS
、
、
我正在
本地
8020端口的机器上运行hadoop。我的名字节点存在于path /usr/local/Cellar/hadoop/
hdfs
/tmp/dfs/name下。我已经使用Conda安装了一个
pySpark
项目,并安装了
pyspark
和
hdfs
3依赖项。以下是我的代码:from
hdfs
3 import HDFil
浏览 2
提问于2021-06-25
得票数 1
回答已采纳
2
回答
在AWS上使用Apache-Spark加载数据
、
、
、
、
我已经创建了一个主节点和两个
从
节点。在主节点上,我有一个目录data,其中包含要处理的所有csv格式的数据
文件
。据我所知,我认为这是因为每个
从
节点都需要知道数据
文件
在其
本地
文件
系统中的位置,以便能够加载数据
文件
。,它从其
本地
文件
系统加载数据
文件
。但是,在提交
应用程序
运行之前,我们还必须使用$ .每个
从
节点是否
从
自己的
本地
文件
系统
浏览 1
提问于2015-07-23
得票数 0
1
回答
Python+
PySpark
文件
本地
连接到远程
HDFS
/Spark/纱线集群
、
、
我一直在玩
HDFS
和Spark。我已经在我的网络上设置了一个五个节点集群,运行
HDFS
、Spark,并由Yarn管理。工作人员正在以客户端模式运行。
从
主节点,我可以很好地启动
PySpark
外壳。对于是否以及如何在这个集群上运行python/
Pyspark
文件
,我有几个问题。如果我在其他地方有一个带有
PySpark
调用的python
文件
,比如在我的
本地
dev笔记本电脑上或者在某个地方的码头容器上,那么有什么方法可以在
本
浏览 45
提问于2022-10-11
得票数 0
回答已采纳
1
回答
我需要安装Hadoop才能使用
Pyspark
的所有方面吗?
、
、
、
我已经安装了
pyspark
,但没有单独安装任何hadoop
或
spark版本。显然,在Windows下,
pyspark
需要访问Hadoop的winutils.exe来做一些事情(例如,将
文件
写入磁盘)。当
pyspark
想要访问winutilis.exe时,它会在HADOOP_HOME环境变量(用户变量)指定的
文件
夹的bin目录中查找它。因此,我将winutils.exe复制到
pyspark
(.\site-packages\
pyspark
\bin)的bi
浏览 4
提问于2020-03-24
得票数 1
2
回答
星星之火:无法
从
HDFS
加载拼板
文件
,直到将它们“放入”
hdfs
中。
、
、
、
、
我有一个c#
应用程序
,可以创建拼花
文件
并将其上传到远程
HDFS
。如果我使用scp将
文件
复制到安装了
HDFS
客户端的目标计算机上,然后"
hdfs
将该
文件
放入“
HDFS
中,那么spark可以正确地读取该
文件
。如果我使用curl对webhdf服务直接
从
客户端
应用程序
将该
文件
上传到
HDFS
,则在尝试读取parquet
文件
时
从
S
浏览 0
提问于2018-12-04
得票数 0
3
回答
加载
本地
文件
(而不是
HDFS
)在Spark失败
、
我有一个问题--如何用sc.textFile在
PySpark
上加载
本地
文件
(不是在
HDFS
上,也不是在
PySpark
上)。这是非常有帮助的,你给我很好的建议,如何加载
本地
文件
。 我确认了
从
HDFS
或
S3 works加载
文件
。以下是
从
HDFS
浏览 7
提问于2016-02-01
得票数 20
1
回答
Apache Tika无法解析
HDFS
文件
、
、
、
我使用的代码如下:import urllib3在linux上,如果我给出一个
本地
路径,tika可以解析,但是对于
hdfs
路径,我得到一个 Spark I/O error: No such file
浏览 0
提问于2018-03-13
得票数 1
1
回答
Pyspark
在纱线集群模式下将
文件
写入
本地
、
、
、
我正在尝试运行我的
pyspark
代码。我的目标目录是
本地
目录。我用来提交spark-submit命令的用户是超级用户,并且拥有
从
hdfs
读取
文件
并将
文件
写入
本地
的所有权限。作业正在运行,没有任何错误,但没有创建输出目录
或
文件
。有人能帮帮忙吗?
浏览 12
提问于2019-07-16
得票数 2
2
回答
从
hdfs
将avro
文件
加载到
pyspark
数据格式中
、
、
、
、
我已经构建了一个小的数据管道,它将一些虚构的测试数据
从
本地
目录(json-格式)移动到
hdfs
(avro格式)。这似乎是正确的(没有由水槽显示的错误),但错误可能已经存在于这里。现在让我解释一下我是如何做到的,这样您就可以看到我可能失败的地方了:我的目标是将json数据
从
本地
目录推送到
HDFS
,这样我就可以使用
pySpark
由于json对
HDFS</em
浏览 1
提问于2018-09-03
得票数 1
3
回答
Spark local vs
hdfs
permormance
、
、
我在同一台机器上有一个Spark集群和一个
Hdfs
。我已经在每台机器的
本地
文件
系统和
hdfs
分布式
文件
系统上复制了一个大约3G字节的文本
文件
。为什么?我所期望的结果正好相反。在sgvd的请求后添加: 16个
从</e
浏览 0
提问于2016-01-13
得票数 5
2
回答
如何使用
pyspark
读取
hdfs
kafka数据?
、
、
、
、
我正在尝试读取通过Kafka和SparkStreaming获取的
HDFS
存储的数据。我使用的是一个Java
应用程序
,它使用JavaRDD.saveAsTextFile方法将一些任意数据保存到Hadoop。consumerRecordJavaRDD.saveAsTextFile("/tmp/abcd_" + System.currentTimeMillis());一个文本
文件
行被推入卡夫卡数据保存在
本地
主机:50070的默认hadoop浏览器中。 然后
浏览 0
提问于2018-01-22
得票数 0
回答已采纳
1
回答
反序列化内存中的Hadoop序列
文件
对象
、
、
、
、
Pyspark
有一个函数sequenceFile,它允许我们读取存储在
HDFS
中的序列
文件
,或者所有节点都可以使用的
本地
路径。例如,我正在处理的
应用程序
(不能更改
应用程序
逻辑)运行一个火花作业,它将该
文件
写入非
HDFS
兼容的
文件
系统,然后我可以作为内存中的python字节对象检索该
文件
,该对象似乎只包含一个序列化的序列对象,而我应该能够在内存中反序列化该对象因为这个对象已经在内存中(因为我无法控制),所以我必须反序列
浏览 15
提问于2021-12-08
得票数 1
2
回答
无网络接入的CDH集群如何安装parckage(如mmlspark)?
、
、
、
、
/shell.py: 尝试手动安装 我有一个亚马逊ec2实例,它可以访问maven.org,我下载了所有包并复制到
本地
CDH集群,路径/opt/cloudera/parcels/CDH/lib/spark但import mmlspark仍然是ModuleNotFoundError: No module named 'mmlspark' 通过一些努力 我发现:解压mmlspark.jar,压缩
文件
夹里面的mmlspark并放到
hdfs
(
hdfs
浏览 278
提问于2020-07-29
得票数 4
回答已采纳
1
回答
从
群集的所有计算机访问
HDFS
文件
、
、
、
、
我的hadoop程序最初是以
本地
模式启动的,现在我的目的是以完全分布式模式启动。),有必要还提供对所有集群上到达映射器功能输入的
文件
的访问权限。在这方面我有一个问题:是否可以直接使用
hdfs
-files :即预先从Linux的
文件
系统复制
文件
到
HDFS
的
文件
系统(因此,我假设,这些
文件
在集群的所有计算机上都是可用的,请纠正),然后使用
HDFS
Java API读取这些
文件
,在集群的计算机上执行的reducer和mapp
浏览 1
提问于2013-02-13
得票数 0
1
回答
DBUtils下载
文件
但
文件
不在
本地
、
、
、
、
我试图在databricks之外使用来自DBUtils的
pyspark
.dbutils,它显示在
本地
复制
文件
时没有警告
或
错误,但是
文件
不在目标
文件
夹中。我可以用dbutils.fs.ls检查该
文件
是否存在于DBFS上,并且
文件
确实存在。output = subprocess.check_output((
浏览 14
提问于2022-09-12
得票数 2
2
回答
将数据保存到
HDFS
的格式是什么?
、
、
、
创建DataFrame后,我可以将其保存为avro、csv
或
拼板格式。 在dataframe
或
rdd中是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
2
回答
在oozie失败的情况下提交的
Pyspark
操作:“[Errno 2]没有此类
文件
或
目录”
、
、
、
、
我试图通过oozie工作流在hadoop集群上提交对纱线的基本火花操作,并得到以下错误(来自纱线
应用程序
日志):EDIT3: 参见下面的堆栈跟踪。Diagnostics: File does not exist:
hdfs
://
hdfs
/path/user&
浏览 8
提问于2017-09-01
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python Spark安装及配置步骤
HDFS常用文件操作命令
如何在CDH集群上部署Python3运行环境及运行Python作业
遇见YI算法之初识Pyspark(二)
Apache Hadoop 系列之一
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券