如何用Python读取多个文件，并组合成单个数据帧，每个文件都有标识符？

文章/答案/技术大牛

发布

1回答

、

我想从一个目录中读入多个文件，为每个文件添加一个标识符，并将它们连接到一个数据帧中。下面是一个包含两个文件的示例，但我正在寻找一种更有效的方法来将该过程推广到多个文件。我想添加一个标识每个文件的id列(因此我的问题与this略有不同) Reprex： # file1.csv df1 = pd.read_csvfil

浏览 22提问于2021-08-30得票数 1

3回答

读取多个csv文件时保留文件名

我正在读取多个csvs，每个csvs都有关于单个股票的数据。我使用下面的代码来分别读取它们，以便进行比较。这些数据可以很好地处理，但我在读取csv文件时丢失了它的名称。所以我不知道哪个dataframe是python中的哪个股票。有没有办法用csv文件的名称记录或标记每个数据帧？path =r'/Users&

浏览 44提问于2019-04-11得票数 0

3回答

如何将标识符列添加到批现有文件中？

、、

我正在运行一个不断生成单个.csv文件的计算机模型。每个文件都有一个与地理位置和实验处理相对应的唯一文件名。每个文件包含相同的数据。我想将这些文件合并成一个数据框架，可以在R中进行统计分析。问题是，单个文件没有标识符，无法说明它们所代表的位置或处理。无法让计算机模型添加此信息(!?!)。因此，我希望获取目录中的所有.csv文件，

浏览 3提问于2015-10-26得票数 1

回答已采纳

1回答

如何根据列的值范围与熊猫分开数据框架？

、、、、

这是一个有点奇怪的问题，但我一直在以python中json文件的格式从api中导入属性数据。然后，我使用Pandas将json转换为dataframe。每个属性都被分配一个名称、一个属性id和地址，并为属性中的每个单元都有一个记录。理想情况下，我希望创建由属性id分隔的多个数据帧</em

浏览 5提问于2021-12-22得票数 1

回答已采纳

1回答

读取多个xlsx文件以分离数据帧

、、

寻找一种一次从文件夹读取多个xlsx文件的方法，将每个文件中的每个单独的工作表加载到一个单独的数据帧中。我找到的大多数解决方案，如purrr：：map_ df /:map_dfr：：map_dfr似乎都是为了同时将它们拼接成一个df。上下文:虽然我最终打算将这些文件合并到一个df中，但是在这样做之前，每个选项卡都有相当数量的特定内容。

浏览 2提问于2022-08-02得票数 0

2回答

使用.csv组合多个row.names文件

我有多个.csv文件(目前为4个，但将来将是可变的)，并试图将它们导入R(到单个数据帧中)。每个单独的文件应用后R中列表的列表count_files <- list.files() co

浏览 0提问于2021-10-09得票数 2

回答已采纳

2回答

读取文本文件，并根据第一列中存在的唯一代码将其拆分成多个文件

、

读取文本文件并基于文本文件的第一列中存在的唯一代码将多个文件拆分成多个文件-基于第一列中的唯一代码标识符，每条记录的列结构将不同。NY", "123", "567", "888" "0666666", "AB", "CC", "DD", "EE", "USA

浏览 26提问于2019-06-19得票数 0

1回答

当我使用gridExtra包的grid.arrange时，随着绘图数量的增加，每个单独的绘图都会缩小。有没有一种方法可以创建绘图画布，使其跨越多个页面，而不缩小每个单独的绘图？也就是说，让它们跨越多个页面，每个页面将有大约9个左右的绘图？我可以用PNG或PDF文件格式。在尝试grid.arrange之前，我尝试了一下这个站点上的代码示例：，并遇到了同样的问题。我还没有尝试将不同的数据帧组合成一个带有绘图标识

浏览 1提问于2011-05-20得票数 4

回答已采纳

1回答

创建一个函数来迭代R中大型列表中的tibble元素

、、

在将多个数据集组合成xts之前，我正在尝试创建一个函数来自动执行一些基本的格式化操作。我可以批量读取这些文件，并创建一个很大的tibble列表。但是我很难创建一个遍历该列表的函数。当我将单个文件读入df时，我一直在运行以下程序： df<-df[!我对数据的一个问题是，DateTime并不总是在文件之间匹配，上面的方法给了我一个带有NAs的大型xts，这是我更喜欢的另一种类型的合并/rbind。我想创建

浏览 14提问于2020-01-30得票数 1

回答已采纳

2回答

从多个输入路径读取数据帧并同时添加列

、、

我正在尝试读取多个输入路径，并根据路径中的日期向数据帧添加两列。实际上，这些文件是以orc的形式存储的，使用hive对这些日期进行分区，因此它们具有类似s3n://bucket_name/folder_name/partition1=value1/partition2因此，在这里，我尝试从多个路径获取多个目录，并根据分区为每个spark数据帧

浏览 1提问于2018-02-09得票数 2

回答已采纳

1回答

如何编写脚本以在多个目录中执行文件

、

如何编写脚本来执行多个目录中的文件？问题是:我有许多目录，每个目录都有一个数据文件，由python脚本(例如，a.py)读取和分析。我不想"cd“到每个目录，并键入"a.py”。输出保存在每个目录中。

浏览 0提问于2010-11-05得票数 4

1回答

与合并的地板文件的Impala表的性能问题

、、、、

这里，我让python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为数据集的大小在一天内是很大的。这里的拼花文件包含10K的拼板行组，在每个分割的拼花文件中，最后我们将分裂的文件组合成一个文件来创建一个大的单一的拼花文件。这里，我创建了两个Impala表，其中包含一个合并文件和多个拆分文件</e

浏览 0提问于2019-01-28得票数 0

回答已采纳

1回答

如何导入和读取大熊猫中的多个json文件？

、、、

我正在尝试使用python读取多个json文件。.json - message1.json - message1.json 如您所见，所有的json文件都有相同的名称，只是文件夹的名称不同。是否有方法读取收件箱并遍历每个文件夹以获得json文件？需要先读取路径。如何让程序读取

浏览 3提问于2021-10-29得票数 1

回答已采纳

1回答

如何在csv中使用多年的for循环创建数据帧

、、、

我有2015到2019年的每个月和年的csv文件，正在尝试将它们读取到单个数据帧中，并创建一个区分每个年份的年份变量，以便我最终可以合并它们。csv文件的命名方式都相同(例如: name_monthyear："name_0119.csv“和"name_0218.csv")。我已经成功地完成了每一年的这一点，通过创建年份文件夹2019、2018等，并分别完成每一年，然后合

浏览 11提问于2019-06-23得票数 0

1回答

根据能量对生物分子进行分类

我有一个文件，里面有7000个分子，以及它们的名字和能量。每个分子从关键字模型1开始，第二线有能量(下面的例子是-9.102，第一分子)，第七条线有该分子的名称(下面的例子是第一分子，S3670头孢苏林(钠).cdx)。我想根据所有分子的能量对它们进行排序，这样最低的(最负的)分子将是产生的文本文件中的第一个分子以及分子的名字。能量和名字可以是相同的，也可以是不同的。

浏览 1提问于2022-10-21得票数 0

1回答

如何使用r中的topicmodel将多个文档组合成一个文档？

、、、、

我目前正在尝试使用topicmodel包将一个语料库的多个文档组合成一个文档。我最初通过多个csvs导入数据，每个csvs都有多行文本。但是，当我导入每个csv时，csv的每一行都被视为一个文档，每个csv都被视为一个语料库。我想要做的是将每个csv的每个文档/行合并为一个文档，然后每个csv将代表我的语料库中的一个文档。我不确定这是否可行--也许在最初导入并创建文档和语

浏览 17提问于2020-11-09得票数 0

回答已采纳

1回答

NodeJS -读取Parquet文件

、、、

有谁知道用NodeJS读取拼花文件的方法吗？谢谢

浏览 1提问于2019-04-04得票数 11

1回答

使用dask合并数据集证明是不成功的

、、、、

我正在尝试使用Python中的Dask合并许多大型数据集，以避免加载问题。我想将合并后的文件另存为.csv。事实证明，这个任务比想象的要难：import dask.dataframe as ddimport os dfs.append(ddf) 如果我使用dd_all.to_csv(

浏览 1提问于2018-11-15得票数 0

2回答

使用多字符分隔符将存储在谷歌云存储上的数据加载到BigQuery

、、、

我想将带有多个字符分隔符的数据加载到BigQuery。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符，如'|‘、'$’、'~‘等我知道有一种数据流方法，它将从这些文件中读取数据并写入BigQuery。但是我有大量的小文件(每个文件400MB)，它们必须写入一个单独的表分区(分区编号在700左右)。这种方法在处理<

浏览 22提问于2016-08-11得票数 3

回答已采纳

1回答

如何将多个(excel)文件读入R？

、、

我有上百个中等大小的Excel文件(5,000到50.0000行，大约100列)要加载到R中。它们有一个定义良好的命名模式，如x_1.xlsx、x_2.xlsx等。如何以最快、最直接的方式将这些文件加载到R中？

浏览 0提问于2015-10-01得票数 40

回答已采纳

点击加载更多