如何根据dataframe的列值从文件夹中读取文件_如何从多个文件夹读取到单个Dataframe_根据dataframe中的其他列更改pandas dataframe列值 - 腾讯云开发者社区

、、

我在Azure Synapse笔记本中工作，从格式良好的文件夹路径读取文件到Dataframe，如下所示：考虑到通配符中有许多文件夹引用，我如何将"State“值作为列捕获到生成的Dataframe中？

浏览 2提问于2021-11-08得票数 1

回答已采纳

1回答

如何使用Azure Synapse中的Pyspark从ADLS Gen2中的文件夹读取多个文件并用于处理？

、、、

我正在寻找一种方法，通过这种方法，我可以从文件夹中读取所有文件，并且只使用转换所需的文件。我想要创建的场景是，一旦我从文件夹中读取文件，我只想选择操作所需的文件。我们应该如何选择文件或选择哪个文件？？我正在从另一个文件夹读取一个文

浏览 6提问于2022-11-24得票数 0

回答已采纳

2回答

如何根据dataframe的列值从文件夹中读取文件

、、、

我有一些数字的列，对于每个数字，我想检查在文件夹中，如果这个匹配到文件夹中的任何文件名阅读这个文件，如果不匹配的数字去下一步… df=pd.DataFrame({'x':['2000','5000','10000']}) files_folder： P2000.csvP5000.csv P6000.

浏览 10提问于2021-04-21得票数 1

回答已采纳

1回答

SSIS帮助；基于条件移动文件

我不能弄清楚，而且我有一个紧迫的最后期限。我需要读取一个文件，并根据列值是否包含任何大于1的值..我需要继续进一步处理，否则会出错。这意味着，如果该列中的任何(行)值大于1，我需要将文件移动到error文件夹，如果所有值都是‘1’，则需要将其移动到'processed‘文件夹。我已经得到了读

浏览 3提问于2011-04-29得票数 0

1回答

按Scala中的浮点型列值过滤DataFrame

、、

我需要根据数据类型过滤Spark dataFrame列中的值。我想在一列中只有浮点数。我尝试使用一些正则表达式，但是，在写入csv文件时出现错误：SparkException: Task not serializable 下面是从CSV文件读取到dataFrame的方法，然后我过滤一些列并将它们写回csv文件：

浏览 0提问于2018-04-02得票数 0

1回答

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

、

我正在从pyspark中的s3存储桶中读取镶木地板文件。有一些地块文件具有不同的模式，这会导致作业错误。我想通过预定义的模式和火花作业应该只读取与预定义的scehma匹配的文件。data = spark.read.parquet(*path_list) 上面的parquet spark read命令是批量读取文件。如何能够只<e

浏览 21提问于2021-01-12得票数 2

1回答

比较从s3读取的每个文件的数据帧

、

我在亚马逊网络服务s3文件夹中有大量的文件。我想从python中的每个文件夹中读取文件，并比较和合并dataframe，这样，如果另一个dataframe中的特定列值相似，则将相应的列值添加到列表中，并将所有其他列值添加到

浏览 12提问于2019-04-08得票数 0

1回答

从星火中的多个文件夹加载多个文件

、

我有一个数据集，在主文件夹中包含多个文件夹，每个文件夹包含多个CSV文件。每个CSV文件都有三列，名为X、Y和Z。我想创建一个dataframe，以便前三列是三列X，Y，Z。我还想要另外两列，例如第四列包含读取CSV文件的文件夹的名称。第五列包含CSV文件<

浏览 5提问于2020-04-15得票数 5

回答已采纳

1回答

在dataframe列A中创建基于off值的不同文件，并根据dataframe列A中的off值保存到不同的现有文件夹中

、

首先，我想根据dataframe列A FTP_FOLDER_PATHSecond，中的值创建不同的文件--我想根据dataframe列A‘__PATH’中的值将这些文件保存到不同的文件夹中。这些文件夹已经存在，不需要创建。我在挣扎着如何通

浏览 3提问于2020-01-14得票数 0

1回答

如何在读取excel单元格值时提高性能

我正在尝试从excel表格中读取excel单元格的值，方法是打开excel文件，使用行和列的两个循环来读取值。但是我面临的问题是，处理所有的excel文件需要很长的时间。有没有最好的方法来读取excel文件并绑定到数据集。我在不同的文件夹中有不同类型的文件

浏览 1提问于2016-10-10得票数 0

1回答

熊猫DataFrame和雅虎财经API

、、、、

我正在尝试使用将数据读取到DataFrame中。但是，当我从列表中读取符号的值时，它们最终会出现在DataTable中的一个列中。我有两个问题：我将如何完成我想要做<

浏览 0提问于2016-06-13得票数 1

回答已采纳

1回答

查找文件夹A中一组csv文件与B文件夹中一组csv文件之间的差异

、、、

有一个数字a文件需要对其行中的差异进行比较；不同的不是减法，而是列的每一行的不同值。这些文件是根据时间戳命名的，在输出中，当一个记录显示不同的记录时，我需要显示文件的时间戳以及每个文件的不同行的信息如下:假设我有两个文件夹-文件夹A和<em

浏览 6提问于2022-05-13得票数 0

1回答

翻译Pandas Dataframe

、

我从CSV文件中读取了一个Pandas Dataframe。到目前为止，我最好<

浏览 0提问于2017-11-22得票数 0

回答已采纳

1回答

Python:将目录和文件名存储为dataframe列

、、、、

我希望读取每个目录中有多个文件夹和文件的目录的内容，并将文件夹和文件名指定为dataframe.g列的值。目录是“home”，每个文件夹中有几个文件夹和文件。“文件夹”列将为该特定文件夹中存在的文件重复使用。到目前为止，我尝试的</

浏览 1提问于2017-05-22得票数 5

回答已采纳

1回答

将目录中的所有excel文件读取到dataframe中，并使用文件名添加列

、、

我有一个文件夹，里面有一些excel文件。我想将它们全部读取到一个数据帧中，但同时添加一个date列。日期包含在每个文件名中。我有读取文件内容的代码，但不确定如何从文件名中读取日期。这是我用来读取文件的代码。import pandas as pd a

浏览 43提问于2021-08-06得票数 0

1回答

dask read_parquet方法的过滤给出了不需要的结果

、、、、

我正在尝试使用dask read_parquet方法和filters kwarg读取拼图文件。然而，有时它不会根据给定的条件进行过滤。示例:使用dates列创建和保存数据框架import numpy as np ddf = dd.from_pandas(df, npartitions=3).to_parquet('test

浏览 0提问于2018-07-09得票数 8

回答已采纳

2回答

如何在CSV文件中写入特定行数据

、

目前，我有一个csv文件，其中最后一列是空的，我们可以将其称为label。以下是数据的图片：我通过分类器得到预测： [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0.]因此，我的问题是如何将这些预测写入最后一列(label)？

浏览 0提问于2018-01-07得票数 0

1回答

如何通过在spark中使用IN子句传递另一个列值来检索列值

、、

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A

浏览 19提问于2021-05-28得票数 0

回答已采纳

1回答

Python -从csv读取数据，然后用循环中的数据和文件号写入新的csv。

、、

我的目标是：从以字母“Z”开头的目录中读取所有文件。从directory.Open中的每个.csv读取的温度列：将温度列添加到新的.csv中。向这个新的中添加了一个列"File #“，并根据我通过loop.读取的</em

浏览 3提问于2020-12-01得票数 0

回答已采纳

1回答

读取超大型文件R的列名和列值

、、、

我需要在RStudio 3(在Mac上)中加载一个CSV文件，这个值为11 it；这使得使用常规命令无法加载。我需要基于某些列值的数据子集，这将使其易于管理。我如何才能：从该文件中读取单个列为list 谢谢。

浏览 1提问于2021-10-31得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将文件路径值读入星火中的列？

如何使用Azure Synapse中的Pyspark从ADLS Gen2中的文件夹读取多个文件并用于处理？

如何根据dataframe的列值从文件夹中读取文件

SSIS帮助；基于条件移动文件

按Scala中的浮点型列值过滤DataFrame

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

比较从s3读取的每个文件的数据帧

从星火中的多个文件夹加载多个文件

在dataframe列A中创建基于off值的不同文件，并根据dataframe列A中的off值保存到不同的现有文件夹中

如何在读取excel单元格值时提高性能

熊猫DataFrame和雅虎财经API

查找文件夹A中一组csv文件与B文件夹中一组csv文件之间的差异

翻译Pandas Dataframe

Python:将目录和文件名存储为dataframe列

将目录中的所有excel文件读取到dataframe中，并使用文件名添加列

dask read_parquet方法的过滤给出了不需要的结果

如何在CSV文件中写入特定行数据

如何通过在spark中使用IN子句传递另一个列值来检索列值

Python -从csv读取数据，然后用循环中的数据和文件号写入新的csv。

读取超大型文件R的列名和列值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐