Pyspark检查hdfs文件夹修改日期

、

我是pyspark的新手。想知道pyspark有没有什么函数可以获取HDFS文件夹的修改日期？例如在HDFS中：在pyspark中： magic() print

浏览 13提问于2017-12-21得票数 0

回答已采纳

2回答

如何将外部python库添加到HDFS中？

、、、

有没有办法，如何将像这样的外部库添加到hdfs中？似乎pyspark需要外部库才能将它们放在hdfs上的共享文件夹中。Byt因为我使用的是shellscript，它通过外部库运行pyspark脚本，所以无法导入它们。请参阅关于ImportError的post 。

浏览 11提问于2017-07-28得票数 0

2回答

如何更改SparkContext.sparkUser()设置？

、、

我是Spark和pyspark的新手。如何更改星火用户名？

浏览 2提问于2015-09-30得票数 10

回答已采纳

1回答

修复损坏的HDFS文件而不丢失数据( datanode中的文件仍然存在)

、

我是HDFS系统的新手，遇到了一个HDFS问题。我们有一个HDFS文件系统，namenode在一个服务器上(这个服务器名为0002)，datanode在另外两个服务器上(这两个服务器分别名为0004和0005 )。原始数据来自Flume应用程序，并使用Flume中的"Sink“作为HDFS。Flume会将原始数据(txt文件)写入服务器0004和0005上的datanode。例如，当我们检查namenode时 hadoop fsck /wimp/contract-snapsh

浏览 1提问于2021-01-08得票数 1

1回答

用于火花的HDFS Config

、、

我想用pyspark从HDFS读取一个文件。守则如下：import pandas as pd import json .appName('PySpark_Neural_Network') \ .config("spark.hadoop.dfs.client.us

浏览 14提问于2022-05-04得票数 0

1回答

pyspark脚本中的HDFS命令

、、、

我正在编写一个简单的pyspark脚本来将hdfs文件和文件夹从一个位置复制到另一个位置。我已经浏览了许多在线文档和答案，但是我找不到一种方法来使用pyspark复制文件夹和文件，或者使用pyspark执行hdfs命令(特别是复制文件夹和文件)。hadoop = sc.

浏览 1提问于2022-05-10得票数 0

1回答

Apache Tika无法解析HDFS文件

、、、

我使用的代码如下：import urllib3在linux上，如果我给出一个本地路径，tika可以解析，但是对于hdfs路径，我得到一个 Spark I/O error: No such file

浏览 0提问于2018-03-13得票数 1

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functionscheckpointDir = "/hdfs

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

如何在HDFS中查找文件的创建日期

、

我需要在hdfs目录中找到文件或文件夹的创建日期。例如：我得到了路径/user/myUser/中包含修改日期的文件和目录的列表。我想要找到每个条目的创建日期。

浏览 921提问于2019-03-19得票数 2

8回答

apache spark -检查文件是否存在

、、

我有一个两步的过程，第一步是将一个SUCCESS.txt文件写到HDFS上的一个位置。我的第二步是spark作业，它必须在开始处理数据之前验证该SUCCESS.txt文件是否存在。我检查了spark API，但没有找到任何检查文件是否存在的方法。你知道怎么处理这件事吗？我找到的唯一方法是sc.textFile(hdfs:/SUCCESS.txt).count()，它会在文件不存在时抛出异常。我必须捕获该异常，并相应地编写我的程序。我真的不喜欢这种方法。

浏览 8提问于2015-05-23得票数 31

4回答

从Spark读取多个json文件

我不能使用read.json("*")，因为文件不在同一个文件夹中，并且没有我可以实现的特定模式。

浏览 2提问于2016-04-25得票数 7

1回答

如何从S3存储桶中读取csv文件并在pyspark中创建数据帧？

、、、

call last): File "/usr/local/spark-2.0.0-bin-hadoop2.7/python/pysparksrc.zip/py4j/java_gateway.py", line 933, in __call__ File "/usr/local/spark-2.0.0-bin-hadoop2

浏览 0提问于2020-12-01得票数 0

1回答

hdfs -获取文件夹/文件创建时间戳

、

我正在尝试检索存储在hdfs中的特定文件夹的创建时间戳，但我没有找到可以获取此信息的命令。显然，正如-help命令所述，-stat命令只能使用%y选项检索修改日期：-stat [format] <path> ... : (%y, %Y) 有什么方法可

浏览 0提问于2019-08-10得票数 0

1回答

为什么我的GCP脚本/笔记本找不到我的文件？

、

我尝试了三种方法：上传包含wget命令的.ipynb文件。带桶的PySpark：clusterAccess 通过SSH.上传.py文件，使用齿轮图标wget数据集，并使用python gcp.py将两者移动到同一个文件夹运行脚本中只是给了我一个错误说文件找不到。

浏览 0提问于2021-04-30得票数 0

0回答

Spark 3.x中借助hdfs分发python环境出现问题？

、、、、

一、环境二、问题详情 2.我上传了这个依赖包到hdfs://xxxxxxx/python_env.zip；driver-memory 4g \--executor-cores 1 \ --execu

浏览 108提问于2023-05-18

1回答

如何通过保留修改时间将HDFS文件从一个集群复制到另一个集群

、、、

我必须将一些HDFS文件从我的生产集群移到dev集群。在基于文件修改时间移动到dev集群之后，我必须测试HDFS文件上的一些操作。需要有不同日期的文件在dev中进行测试。我尝试使用DISTCP，修改时间是用当前时间更新的。我通过使用在这里找到的许多参数( )来检查Distcp提前感谢

浏览 0提问于2017-02-07得票数 1

回答已采纳

1回答

五旬节RowListener ClassNotFoundException

、、、

我在戊the上运行了一个简单的作业，它在HDFS中复制文件，成功完成，文件系统被复制到HDFS中。但是，当我运行map reduce作业时，它就会说作业是在宾得完成的，但是映射减少任务失败了，在HDFS上的输出目录中，结果丢失了，日志文件说：错误: java.net.URLClassLoader

浏览 3提问于2013-12-13得票数 0

1回答

Pyspark删除本地/hdfs文件/文件夹

org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/D:/code/use_spark/output already exists or hdfs://user/output exists 每次我需要手动删除已存在的文件/文件夹时，它都不是很聪明。有没有办法使用pyspark API删除hdfs/local中的文件/文

浏览 139提问于2021-02-07得票数 1

回答已采纳

1回答

如何用Python在HDFS中打开拼图文件？

、、

我正在寻找读取存储在HDFS中的拼接文件，我正在使用Python来完成此操作。我有下面的代码，但它不能在HDFS中打开文件。你能帮我修改代码吗？sc = spark.sparkContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet

浏览 9提问于2018-02-02得票数 2

回答已采纳

1回答

火花加载python包是如何依赖外部libarary的？

、

", line 495, in <module> File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/pyspark/sql/utils.py", line 117, in deco An ex

浏览 3提问于2022-03-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将外部python库添加到HDFS中？

如何更改SparkContext.sparkUser()设置？

修复损坏的HDFS文件而不丢失数据( datanode中的文件仍然存在)

用于火花的HDFS Config

pyspark脚本中的HDFS命令

Apache Tika无法解析HDFS文件

使用检查点从胞表读取和更新同一个表

如何在HDFS中查找文件的创建日期

apache spark -检查文件是否存在

从Spark读取多个json文件

如何从S3存储桶中读取csv文件并在pyspark中创建数据帧？

hdfs -获取文件夹/文件创建时间戳

为什么我的GCP脚本/笔记本找不到我的文件？

Spark 3.x中借助hdfs分发python环境出现问题？

如何通过保留修改时间将HDFS文件从一个集群复制到另一个集群

五旬节RowListener ClassNotFoundException

Pyspark删除本地/hdfs文件/文件夹

如何用Python在HDFS中打开拼图文件？

火花加载python包是如何依赖外部libarary的？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐