需要读取pyspark - Databricks中的最大日期文件夹文件 - 腾讯云开发者社区

、、

我有许多文件夹，我必须在其中读取最大日期文件夹文件。假设我有两个文件夹xyz和abc，里面都有months和date文件夹。从xyz，我必须读取5个月，这是最大的月文件夹和7，这是最大的日期文件夹。

浏览 28提问于2020-02-09得票数 0

1回答

如何使用Pyspark将数据库与SFTP连接起来？

、、、

我希望使用Pyspark (使用私钥)从databricks集群连接到sftp (读取存储在文件夹中的文件)。从历史上看，我一直从sftp下载文件到linux盒，并将其移动到蔚蓝容器中，然后再用pyspark读取文件。是否有一种方法可以使用databricks从sftp直接读取？谢谢你调查此事。

浏览 12提问于2022-08-17得票数 0

6回答

如何在Apache预构建版本中添加任何新的库(如Spark csv)

、、

我已经构建了，并能够使用下面的命令使用同样的pyspark错误获取Traceback (most recent call last): File "<stdin>",line 1, in &l

浏览 13提问于2015-06-10得票数 26

回答已采纳

2回答

使用Azure Blob容器中的Pyspark遍历多个文件夹和子文件夹(ADLS Gen2)

、、、

我试图遍历Azure Blob容器中的多个文件夹和子文件夹，并读取多个xml文件。我有YYYY/MM/DD/HH/123.xml格式的文件我的意图是遍历所有这些文件夹并读取XML文件。我尝试使用了很少<

浏览 4提问于2022-08-26得票数 0

1回答

在木星笔记本中使用PySpark读取XML

、、、

我试图读取XML文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并获得以下错误：我试过：$spark_HOME/bin/spark shell-软件

浏览 2提问于2020-09-18得票数 2

3回答

我使用的是pyspark (1.6)，我想使用databricks:spark-csv库。为此，我尝试了不同的方法，但都没有成功pyspark --jars THE_NAME_OF_THE_JAR df = sqlContext.read.formatorg.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.

浏览 1提问于2017-05-19得票数 2

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

当我转到我的目录并执行以下操作时它能够在浏览器中打开jupyter笔记本，然后我可以运行以下命令，它可以正确读取。例如，如果我必须使用Spark-csv包，我就会这样做在终端中，它打开了一个jupyter笔记本电脑与火花-csv封装。我不需要特别为spar

浏览 10提问于2017-02-07得票数 1

回答已采纳

1回答

使用Scala/pysprak从Zip文件中读取内容，还可以从Databricks上读取内容，并将文件存储在ADLS上

、、、、

此zip文件夹位于Azure Data Lake Storage上，并使用服务原则将其挂载在DBFS Databricks文件系统上。当使用普通的python代码解压6 6GB的文件时，我得到了1.98 6GB的解压文件。请建议一种直接读取txt文件并将其存储为spark Dataframe的方法。我尝试过使用python代码，但直接从python中读取时出现了

浏览 35提问于2019-09-19得票数 1

2回答

如何有效地读取数据湖文件的元数据

、、、、

我想在databricks脚本中读取数据湖中文件的最后修改日期时间。如果我在从数据湖读取数据时能高效地将它作为一列阅读，它将是完美的。谢谢您：)UPDATE：如果您正在使用Databricks，因为Databricks运行时10.4在2022年3月18日发布，dbutils.fs.ls()命令也返回文件夹和文件的“modificationTime

浏览 3提问于2021-06-16得票数 0

回答已采纳

1回答

DBUtils下载文件但文件不在本地

、、、、

我试图在databricks之外使用来自DBUtils的pyspark.dbutils，它显示在本地复制文件时没有警告或错误，但是文件不在目标文件夹中。我可以用dbutils.fs.ls检查该文件是否存在于DBFS上，并且文件确实存在。我的pyspark会话配置了databricks-connect，我可以用它来执行SQL。我是这样配置databricks-co

浏览 14提问于2022-09-12得票数 2

3回答

按pyspark日期过滤文件

、、

我正在尝试使用pyspark从databricks datalake中提升一些文件。为此，我使用"sqlContext“语句来创建数据框，这样做没有问题。每个文件都按创建日期命名，例如"20211001.cv“。这些信息每天都会出现，我使用"* .csv“来获取它们。但现在我需要将文件从某个日期向前移动，但我找不到方法，这就是为什么我会求助于您。我使用的语句风格如下： df_example= (sqlCo

浏览 58提问于2021-11-09得票数 1

1回答

用火花读取迷你桶中的多个文件

、、、

我试图用Spark读取多个文件--这些文件是avro文件，并存储在名为datalake的Minio桶中Minio (最新的小型/小型码头)| 15|0.08712929970154071| 7|1530017325000|但是，如果文件</em

浏览 0提问于2018-06-26得票数 1

回答已采纳

3回答

为什么collect()工作得很好，但是count()和take()在Spark中给我带来了错误？

、、

ipython-input-27-377a7789e04b> in <module> 1056 1047 1048 def count(

浏览 58提问于2021-01-31得票数 0

1回答

使用PySpark从名称不包含字符串的文件夹中读取文件

、、、

我有一个文件夹，里面的文件类似于- ./env_california_0100.xml./env_california_0300.xml ./env_0400.xml 使用pyspark，如果我想读取名称中包含字符串'california‘的文件，那么我将使用 df=spark.read.format("com.databricks.spa

浏览 20提问于2019-10-07得票数 1

回答已采纳

2回答

从Azure存储资源管理器读取databricks中的zip文件

、、、、

我想读取具有csv文件的zip文件。我尝试过许多方法，但没有成功。在我的例子中，我应该读取文件的路径在中。例如，当我必须在databricks中读取csv时，我使用以下代码： dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.csv", h

浏览 4提问于2021-05-04得票数 0

1回答

在PySpark中读取XML文件

、、

我尝试将XML读入PySpark中的数据框架中。从的文档中，我了解了如何加载xml文件，但返回的数据帧是空的。下面是我如何读取我试图解析的文件和文件的例子。from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext

浏览 2提问于2018-12-04得票数 0

回答已采纳

1回答

从Community Edition中的DBFS位置遍历databricks中的pyspark文件

、、、、

我想遍历Databricks中的DBFS位置中可用的文件。但是它抛出了一个错误，说'org.apache.spark.sql.AnalysisException: Path不存在：‘下面是我尝试过的代码： import os from pyspark.sql.types

浏览 10提问于2020-01-03得票数 0

2回答

如何在IPython笔记本中加载jar依赖项

、、、

鼓励我尝试使用spark-csv来读取PySpark中的.csv文件。我发现有几篇文章描述了如何使用，比如ipython notebook --profile=pysparkipython notebook --profile=pyspark --packages com.da

浏览 1提问于2015-11-25得票数 8

4回答

PySpark:如何将GitHub库导入数据库？

、、、、

我想使用这个库来检测数据库中的异常： .This库不能通过PyPi安装。如何在Databricks中从GitHub安装库？我读到过使用一种叫做“鸡蛋”的东西，但我不太明白该如何使用它。

浏览 8提问于2020-02-23得票数 3

回答已采纳

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

、、、、

我很难将一个pyspark.pandas.Dataframe导出到一个Excel文件。我发现很多与性能和方法有关的困难。pyspark.pandas.Dataframe有一个内置的to_excel方法，但是当文件大于50 to时，命令在1小时后出现超时错误(似

浏览 13提问于2022-09-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云