腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
检查
hdfs
文件夹
修改
日期
、
我是
pyspark
的新手。想知道
pyspark
有没有什么函数可以获取
HDFS
文件夹
的
修改
日期
?例如在
HDFS
中: 在
pyspark
中: magic() print
浏览 13
提问于2017-12-21
得票数 0
回答已采纳
2
回答
如何将外部python库添加到
HDFS
中?
、
、
、
有没有办法,如何将像这样的外部库添加到
hdfs
中?似乎
pyspark
需要外部库才能将它们放在
hdfs
上的共享
文件夹
中。Byt因为我使用的是shellscript,它通过外部库运行
pyspark
脚本,所以无法导入它们。 请参阅关于ImportError的post 。
浏览 11
提问于2017-07-28
得票数 0
2
回答
如何更改SparkContext.sparkUser()设置?
、
、
我是Spark和
pyspark
的新手。如何更改星火用户名?
浏览 2
提问于2015-09-30
得票数 10
回答已采纳
1
回答
修复损坏的
HDFS
文件而不丢失数据( datanode中的文件仍然存在)
、
我是
HDFS
系统的新手,遇到了一个
HDFS
问题。我们有一个
HDFS
文件系统,namenode在一个服务器上(这个服务器名为0002),datanode在另外两个服务器上(这两个服务器分别名为0004和0005 )。原始数据来自Flume应用程序,并使用Flume中的"Sink“作为
HDFS
。Flume会将原始数据(txt文件)写入服务器0004和0005上的datanode。例如,当我们
检查
namenode时 hadoop fsck /wimp/contract-snapsh
浏览 1
提问于2021-01-08
得票数 1
1
回答
用于火花的
HDFS
Config
、
、
我想用
pyspark
从
HDFS
读取一个文件。守则如下:import pandas as pd import json .appName('
PySpark
_Neural_Network') \ .config("spark.hadoop.dfs.client.us
浏览 14
提问于2022-05-04
得票数 0
1
回答
pyspark
脚本中的
HDFS
命令
、
、
、
我正在编写一个简单的
pyspark
脚本来将
hdfs
文件和
文件夹
从一个位置复制到另一个位置。我已经浏览了许多在线文档和答案,但是我找不到一种方法来使用
pyspark
复制
文件夹
和文件,或者使用
pyspark
执行
hdfs
命令(特别是复制
文件夹
和文件)。hadoop = sc.
浏览 1
提问于2022-05-10
得票数 0
1
回答
Apache Tika无法解析
HDFS
文件
、
、
、
我使用的代码如下:import urllib3在linux上,如果我给出一个本地路径,tika可以解析,但是对于
hdfs
路径,我得到一个 Spark I/O error: No such file
浏览 0
提问于2018-03-13
得票数 1
1
回答
使用
检查
点从胞表读取和更新同一个表
、
、
我正在使用spark版本2.3,并试图将spark中的蜂巢表读取为:from
pyspark
.sql.functions import*在这里,我添加了一个新列,其中包含了从system到现有的dataframe的当前
日期
import
pyspark
.sql.functionscheckpointDir = "/
hdfs
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
1
回答
如何在
HDFS
中查找文件的创建
日期
、
我需要在
hdfs
目录中找到文件或
文件夹
的创建
日期
。例如:我得到了路径/user/myUser/中包含
修改
日期
的文件和目录的列表。我想要找到每个条目的创建
日期
。
浏览 921
提问于2019-03-19
得票数 2
8
回答
apache spark -
检查
文件是否存在
、
、
我有一个两步的过程,第一步是将一个SUCCESS.txt文件写到
HDFS
上的一个位置。我的第二步是spark作业,它必须在开始处理数据之前验证该SUCCESS.txt文件是否存在。我
检查
了spark API,但没有找到任何
检查
文件是否存在的方法。你知道怎么处理这件事吗?我找到的唯一方法是sc.textFile(
hdfs
:/SUCCESS.txt).count(),它会在文件不存在时抛出异常。我必须捕获该异常,并相应地编写我的程序。我真的不喜欢这种方法。
浏览 8
提问于2015-05-23
得票数 31
4
回答
从Spark读取多个json文件
我不能使用read.json("*"),因为文件不在同一个
文件夹
中,并且没有我可以实现的特定模式。
浏览 2
提问于2016-04-25
得票数 7
1
回答
如何从S3存储桶中读取csv文件并在
pyspark
中创建数据帧?
、
、
、
call last): File "/usr/local/spark-2.0.0-bin-hadoop2.7/python/
pyspark
src.zip/py4j/java_gateway.py", line 933, in __call__ File "/usr/local/spark-2.0.0-bin-hadoop2
浏览 0
提问于2020-12-01
得票数 0
1
回答
hdfs
-获取
文件夹
/文件创建时间戳
、
我正在尝试检索存储在
hdfs
中的特定
文件夹
的创建时间戳,但我没有找到可以获取此信息的命令。显然,正如-help命令所述,-stat命令只能使用%y选项检索
修改
日期
:-stat [format] <path> ... : (%y, %Y) 有什么方法可
浏览 0
提问于2019-08-10
得票数 0
1
回答
为什么我的GCP脚本/笔记本找不到我的文件?
、
我尝试了三种方法:上传包含wget命令的.ipynb文件。带桶的
PySpark
:clusterAccess 通过SSH.上传.py文件,使用齿轮图标wget数据集,并使用python gcp.py将两者移动到同一个
文件夹
运行脚本中 只是给了我一个错误说文件找不到。
浏览 0
提问于2021-04-30
得票数 0
0
回答
Spark 3.x中借助
hdfs
分发python环境出现问题?
、
、
、
、
一、环境二、问题详情 2.我上传了这个依赖包到
hdfs
://xxxxxxx/python_env.zip;driver-memory 4g \--executor-cores 1 \ --execu
浏览 108
提问于2023-05-18
1
回答
如何通过保留
修改
时间将
HDFS
文件从一个集群复制到另一个集群
、
、
、
我必须将一些
HDFS
文件从我的生产集群移到dev集群。在基于文件
修改
时间移动到dev集群之后,我必须测试
HDFS
文件上的一些操作。需要有不同
日期
的文件在dev中进行测试。我尝试使用DISTCP,
修改
时间是用当前时间更新的。我通过使用在这里找到的许多参数( )来
检查
Distcp提前感谢
浏览 0
提问于2017-02-07
得票数 1
回答已采纳
1
回答
五旬节RowListener ClassNotFoundException
、
、
、
我在戊the上运行了一个简单的作业,它在
HDFS
中复制文件,成功完成,文件系统被复制到
HDFS
中。但是,当我运行map reduce作业时,它就会说作业是在宾得完成的,但是映射减少任务失败了,在
HDFS
上的输出目录中,结果丢失了,日志文件说: 错误: java.net.URLClassLoader
浏览 3
提问于2013-12-13
得票数 0
1
回答
Pyspark
删除本地/
hdfs
文件/
文件夹
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/D:/code/use_spark/output already exists or
hdfs
://user/output exists 每次我需要手动删除已存在的文件/
文件夹
时,它都不是很聪明。有没有办法使用
pyspark
API删除
hdfs
/local中的文件/
文
浏览 139
提问于2021-02-07
得票数 1
回答已采纳
1
回答
如何用Python在
HDFS
中打开拼图文件?
、
、
我正在寻找读取存储在
HDFS
中的拼接文件,我正在使用Python来完成此操作。我有下面的代码,但它不能在
HDFS
中打开文件。你能帮我
修改
代码吗?sc = spark.sparkContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet
浏览 9
提问于2018-02-02
得票数 2
回答已采纳
1
回答
火花加载python包是如何依赖外部libarary的?
、
", line 495, in <module> File "/usr/lib/spark/python/lib/
pyspark
.zip/
pyspark
/sql/
pyspark
/sql/utils.py", line 117, in deco An ex
浏览 3
提问于2022-03-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
0483-如何指定PySpark的Python运行环境
Python Spark安装及配置步骤
PySpark安装+Jupyter Notebook配置
Hadoop的配置单机模式和伪分布式介绍以及配置ssh公私钥
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券