操作不同子目录中的数据帧

文章/答案/技术大牛

发布

1回答

、、、、

我有许多子决策，其中我有独特的数据集。我想在这个df上单独做一些操作。类似于:访问每个子目录，执行操作，转到下一个目录并执行相同的操作。column3': [1, 2, 3, 4, 5]}test_b.to_csv('folder2/test_b.csv') 上面的代码创建了子目录，然后将示例df保存在该子目录中。假

浏览 7提问于2021-11-09得票数 1

回答已采纳

1回答

拼图文件:达到最小容量的最佳文件数量是多少

、

我用spark写了一个数据帧到一个拼图文件中，这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新分区到10个分区并将其写入HDFS时，输出拼接文件的大小增加到大约200 of。为什么会发生这种情况？写入拼图文件时，最佳分区数是多少？我的问题不同于this question，我认为它不是重复的。这个问题可能回答了我问题的第一部

浏览 16提问于2019-06-17得票数 0

2回答

是否有一个始终是可写的、可被包用作数据缓存的持久位置？

、

是否有预定义的位置R包可以存储缓存的数据？数据应该在不同的会话中持续存在。其思想如下:在包的data子目录中创建一个R脚本data，它将通过调用data(mydata)来执行(根据data()的文档)。如果以前没有缓存，这个脚本将从互联网加载数据并缓存它。实际上，在包的fortytwo.R子目录中创建一个包含以下内容的<

浏览 2提问于2013-02-14得票数 16

1回答

如何为每个唯一的子文件夹合并两个制表符分隔的数据框

、

我有一个'Total‘目录，以及分别为'a12’和'b12‘的子目录。在每个子目录中，我正好有两个.tsv文件。我的目标是将每个数据帧成功加载到两个pandas数据帧中，并将数据帧压缩为一个数据帧，然后将输出输出为文件： C: // Total / a12 / a12_comb

浏览 4提问于2021-06-12得票数 0

1回答

修改R包数据

包含需要修改的数据帧/usr/lib/R/library/bio.infer/data/itis.ttable.rda的bio.infer包。加载bio.infer包并使用data()函数附加数据帧后，我使用write.table()将数据帧写入文本文件。我使用bio.infer向数据帧添加了另一行，然后应用read.table()创建了一个<em

浏览 2提问于2013-02-05得票数 3

回答已采纳

2回答

在Databricks中，检查路径是否存在

、、、、

我正在从datalake store读取CSV文件，因为我有多个路径，但如果有任何一个路径不存在，它就会给出异常。我想避免这种期望。

浏览 9提问于2018-10-30得票数 6

回答已采纳

1回答

用当前子目录名填充dataframe中的列值

、

我想用当前子目录名填充dataframe中的列值：数据帧：NaNNaN 我希望使用当前子目录名称填充列值

浏览 5提问于2020-06-04得票数 1

1回答

如何从tensorflow的子目录导入图像数据集

、、、、

我有手语数据集。数据集已存储在子目录中，如下所示。这是因为不同的数据是为同一个标签生成的。文件夹总数为101，标签为22。但问题是，如何使用tensorflow递归

浏览 1提问于2022-04-08得票数 0

回答已采纳

2回答

基于不同列的数据帧操作

、、

我有一个数据框架df，它有两个名为Rule_ID和Location的列。它有这样的数据-[u'2c78g',u'df567',u'5ty78'] US [u'2c78g',u'd67gh每个位置的唯一规则ids的计数。这是对这里的问题的扩展-

浏览 1提问于2017-06-27得票数 0

回答已采纳

1回答

父目录的fsync是否保证所有递归子目录的元数据同步？

、、、、

目前，我正在编写一个Android应用程序，需要与原生方面的大量文件的工作。在阅读了几篇关于fsync()的文章后，我决定使用它。然而，我有一件事不清楚：也就是说，假设我对同一父目录中

浏览 1提问于2013-07-12得票数 2

回答已采纳

1回答

只有一个操作时缓存中间数据帧

、、、

在Spark中，假设我有一个经历了大约100次转换的数据帧，然后应用了一个操作。缓存中间数据帧在任何情况下都会有帮助吗？我可以看到，当一个数据帧上应用了多个操作时，缓存会有所帮助，但单个操作又如何呢？为了澄清:我有一个数据帧A，我使用它获得了两个不同的数据帧B和C。然后，我将B和C合并为形式

浏览 0提问于2017-09-14得票数 0

1回答

如何从多个目录下的.txt文件生成一个数据帧？

、、、、

/data“，其中有多个子目录，它们的名称是序列号加上一些无用的信息-例如"17448_2017_Jul_2017_Oct"，其中第一个数字是序列号。在每个子目录中，我有四个".txt“文件，它们的行/行包含日期和时间信息，以及特定类型的属性，例如湿度，在每个子目录中都以相同的方式命名-例如"2019-01-29 03:11:26 54.7”。每个.txt文件顶部的<

浏览 6提问于2019-05-24得票数 0

1回答

在只有部分列名的dplyr列上操作。

、

我有一个函数，使用` `dplyr处理许多不同的数据帧，如下所示： mutate(n = row_number()) %>% select(-n) 传递给函数的数据帧各共享几个键列名在这个函数中

浏览 3提问于2017-12-08得票数 0

回答已采纳

1回答

提取嵌套目录中所有.csvs的路径，并将它们作为单个数据帧读取。

、

结构:数据文件夹和3个主题文件夹(p01、p02、p03)。我所面临的情况是，比方说，p01可能需要钻取5个子目录才能获得.csv，而p02可能没有更多的子目录。有没有一种简单的方法可以简单地提取到目录(数据)中的所有.csvs的路径并将它们作为一个数据帧读取？

浏览 3提问于2016-01-19得票数 1

回答已采纳

1回答

在Pyspark中管理多个数据帧

、、、、

我是PySpark的新手。在我的实现中，我使用了多个数据帧。在这些数据帧中，有一些中间数据帧稍后将不会在代码中使用。我该如何处理它们呢？我面临着GC、OverHead和内存问题。

浏览 6提问于2020-12-18得票数 0

1回答

重新启动目录/在运行代码的过程中清除脚本中的一系列特定行

、、

我尝试将数据帧保存到csv文件，但使用子目录将其分配给时出现错误FileNotFoundError: [Errno 2] No such file or directory 使用绝对路径工作，然后运行所有内容，然后注释掉脚本的其余部分(不清除变量)，然后只运行代码来保存数据帧，使用子目录工作。因此，我在保存数据帧之前使用的路径目录(在同一脚本中)会以某种方式影响它。下面是我的脚本<

浏览 5提问于2019-04-09得票数 0

2回答

、、、

我想这是以for循环的形式出现的吧？我有大约100行代码来读取csv并将其内容添加到数据帧中，但我需要遍历当前工作目录中的所有子目录

浏览 0提问于2012-12-23得票数 0

回答已采纳

1回答

Spark问题:如果我不缓存数据帧，它会被多次运行吗？

、、

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---++--1| 0| 0| 10| 17|+---------+---+---+-

浏览 6提问于2021-04-21得票数 0

回答已采纳

1回答

将列表转换为一组数据帧

、

我在这里提出一个后续问题，因为它可能作为一个独立的问题有用。Delhi", "London", "Paris") 在实际数据中，我需要对一列中的文本执行大量复杂的regex操作，但这种操作会根据split()函数生成的列表元素<

浏览 49提问于2018-10-26得票数 0

2回答

在连接多列中的值时迭代Pandas Dataframe的最快方法

、、、、

我想知道是否有一种更好的方法来迭代pandas数据帧并连接不同列中的值。，我想以最快的方式完成这项工作。做这件事最好的方法是什么？我获取路径(子目录和基本文件名)的一部分，并在迭代数据帧时将它们连接起来。我还可能会从其他相邻的列(如示例中的“text”)获取数据，并在迭代数据帧</em

浏览 0提问于2020-06-27得票数 0

点击加载更多