使用PySpark从名称不包含字符串的文件夹中读取文件_如何从文件夹中读取excel而不指定excel名称？_使用pyspark to pyspark dataframe从s3位置读取拼图文件的文件夹 - 腾讯云开发者社区

、、、

我有一个文件夹，里面的文件类似于- ./env_california_0100.xml./env_california_0300.xml ./env_0400.xml 使用pyspark，如果我想读取名称中包含字符串'california‘的文件，那么我将使用 df=spark.

浏览 20提问于2019-10-07得票数 1

回答已采纳

1回答

Google Cloud Logs导出名称

、、、、

有没有办法配置从日志导出的文件的名称？当前导出的文件包含冒号。在hadoop中，这是无效的路径元素字符，因此PySpark无法读取这些文件。显然，简单的解决方案是重命名文件，但这会干扰同步。有没有办法配置名称或将其更改为不包含冒号？任何其他的解决方案都很受

浏览 0提问于2018-06-06得票数 0

1回答

使用Pyspark从s3存储桶中读取最后一个csv文件

、、、、

因此，我有一个s3存储桶(数据)，其中有一个名为(First)的文件夹，其中包含多个CSV文件，但我不知道该文件的名称，现在我想将该文件夹中的最新文件读取到pyspark dataframe中。

浏览 15提问于2021-09-16得票数 0

1回答

二进制文件的Spark read子组

、、、、

有没有一种简单的方法来使用Spark API (我使用PySpark API)和binaryFiles方法来读取目录中包含的给定文件集？假设我有一个这样的文件夹： a.bin ...我如何使用binaryFiles读取这些文件，而不将它们复制到另一个目录中，因为它们是大文件<

浏览 1提问于2015-08-03得票数 2

1回答

如何使用Pyspark将数据库与SFTP连接起来？

、、、

我希望使用Pyspark (使用私钥)从databricks集群连接到sftp (读取存储在文件夹中的文件)。从历史上看，我一直从sftp下载文件到linux盒，并将其移动到蔚蓝容器中，然后再用pyspark读取文件。是否有一种方法可以使用databricks从sftp直接<

浏览 12提问于2022-08-17得票数 0

2回答

从文件夹中读取文本文件，如果在文本文件中找到特定字符串，则保存文件夹的名称- Python

、、、、

我有大约100个具有随机名称的文件夹，例如本例中的1,2,3,4，...100。在这些文件夹中，我有一些文本文件，其中包含一些字符串。例如: sample.txt。文本文件都具有相同的名称，但位于不同的文件夹中。我需要的是从这些文件夹中读取

浏览 0提问于2016-12-23得票数 0

4回答

mv文件夹目标上的通配符

、、、

我正在编写一小部分代码，用于检查特定文件夹中超过4gb的.mov文件，并按名称将其写入log.txt文件(没有扩展名)。然后，我将这些名称逐行读取到which循环中，这会发出一些归档和复制命令的信号。考虑一个名为abcdefg.mov (新建)的文件和一个名为abcdefg_20180525的对应文件夹(<-*下划线时间戳)，该文件夹也<e

浏览 1提问于2018-05-26得票数 0

1回答

如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra数据传输到火花源？

、、、、

我只是使用querycassandra处理器查询cassandra表，但我不理解的是如何将Json输出文件作为输入文件传递给ExecutePyspark处理器，然后我需要将我的Spark数据传递给Hive我的查询Cassandra属性：火花特性：

浏览 1提问于2018-03-14得票数 3

回答已采纳

1回答

如何从路径字符串中获取文件夹名称，并将其添加到pandas dataframe中的新列中？

、、

我想从tar.gz文件中读取文件夹的名称，并创建包含这些名称的列。file_path = r"C:\Users\filename.tar.gz" csv_list.append(df_temp) df = pd.conca

浏览 10提问于2019-11-04得票数 1

回答已采纳

1回答

在文件夹中读取增量表特定文件

、、、

我试图从包含多个增量文件的文件夹中读取一个特定的文件，请参阅附带的屏幕截图。df.write.format("delta&quo

浏览 14提问于2022-10-20得票数 0

1回答

我想用pyspark从HDFS读取一个文件。df = spark.read.format("avro").load("hdfs://localhost:8020/data/file.avro", header=True)使用以下命令py4j.GatewayConnection.run(GatewayConnection.java:238) at java.lang.Thread.run(Threa

浏览 14提问于2022-05-04得票数 0

2回答

从资源文件中获取DisplayName

、、

我在App_GlobalResources文件夹中有区域性特定的资源文件。现在，我需要从这个资源文件中读取DisplayName属性的值。我正在使用：public string Merchant { get; set; }无法检索属性“名称”，因为本地化失败。

浏览 1提问于2011-05-20得票数 13

1回答

在ADF数据流中读取带有下划线的文件名

、、

我有一组带有下划线文件名的.csv文件。就像xxxxxx_cee_nf_BAT_1234561_2020_01_17.csv.gz xxxxxx_cee_nf_BAT_1234562_2020_01_17.csv.gz路径不解析到任何文件。请确保文件/文件夹存在且未隐藏。同

浏览 1提问于2022-03-22得票数 0

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pysp

浏览 0提问于2021-03-05得票数 0

2回答

比较级效率最高？

、

考虑以下这些文件夹的大约10,000个文件夹的列表，规则列表确定它们是否符合进入下一阶段的条件--规则是基于文本的比较，因此如果文件夹名称包含(从异常列表中选择以下内容的...any)，那么每个文件夹都有一对多的比较，但是文件夹名称字符串必须包含(或不包含)

浏览 8提问于2009-09-18得票数 0

1回答

如何从原始文件夹读取某些文件？

、、

我创建了一个简单的活动来播放存储在原始文件夹中的音乐列表，但是我想创建另一个活动，例如，MainActivity --2008年的歌曲，其他的活动1--2009年的歌曲，其他的活动2--2010年的歌曲等等那么，我如何只读取原始文件夹中的某些文件，或者是否可以创建子目录或从其他新文件夹中<em

浏览 1提问于2022-05-29得票数 0

回答已采纳

2回答

如何使用pySpark读取分区parquets的子示例？

、、、

假设为我提供了parquets数据的以下分区：└── data/ │ ├── <hash>_toto.parquet我可以读取整个分区数据，但我不知道如何排除其中的一些数据。我希望保留Spark实现的</e

浏览 8提问于2022-01-20得票数 1

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

从本地计算机读取数据时出现(PySpark)问题

、

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError用法: java.io.IOException:方案没有FileSystem : null '‘ Error picture 如果我使用pandas.re

浏览 26提问于2020-10-28得票数 0

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

、、、

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe中的.gz

浏览 24提问于2020-12-30得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云