基于唯一值将数据帧子集成小数据帧子集并同时写入csv文件的有效方法

、、、、

根据唯一/过滤条件将大型数据帧df子集划分为较小子集的最有效方法是什么？15个独特的国家，我想根据这15个独特的国家将数据集子集为15个数据帧，并在15个csv输出文件中同时写出15个数据帧。所需的</e

浏览 38提问于2020-09-28得票数 4

回答已采纳

2回答

如何编写一个for循环，将多个csv文件读入R，并对数据进行子集，从而为ggplot创建干净的数据帧？

、、、、

现在，我只想对csvs进行子集，然后根据子集数据创建一个数据帧。filenames <- gsub(

浏览 0提问于2019-02-26得票数 0

1回答

如何根据字段将数据从CSV加载到单独的Hadoop HDFS目录

、

我有一个CSV数据，需要根据某个字段(年份)将其加载到HDFS目录中。我计划使用Java。我已经考虑过使用BufferedReader，但是我在实现它时遇到了问题。这是完成这项任务的最佳选择，还是有更好的方法？

浏览 34提问于2021-11-03得票数 0

回答已采纳

2回答

将多个pandas数据帧附加到单个csv，但仅在第一次附加时包含报头

、、、、

我需要创建一个.csv文件，并将多个数据帧的子集附加到其中。所有数据帧的结构都是相同的，但是我需要创建带有头部的输出数据集，然后追加所有没有头部的后续数据帧。我知道我可以只使用第一个数据帧的头创建输出文件，然后执行一个不带头的append

浏览 0提问于2015-11-18得票数 1

3回答

Pandas处理大型CSV数据

、、

我正在使用pandas处理至少8 8GB大小的大型数据集。在我的理解中，分块整个文件将创建许多不同的数据帧。因此，使用我现有的例程，这只删除特定数据帧上的重复值，而不是整个文件上的重复值。我需要删除基于“唯

浏览 33提问于2020-03-11得票数 3

回答已采纳

1回答

pyspark在输出中写入许多较小的文件

、、

我正在使用pyspark处理一些数据，并将输出写入S3。我已经在athena中创建了一个表，它将用于查询此数据。数据采用json字符串的形式(每行一个)，spark代码读取文件，根据特定字段对其进行分区，并写入S3。对于一个1.1 GB的文件，我看到spark正在写入36个文件，每个文件大小大约为5 MB。在阅读athena文档时，我发现最佳文件</em

浏览 5提问于2019-12-16得票数 2

1回答

将大型数据框导出到可供Power BI使用的单个文件的最佳方法

、、

我正在Azure Databricks中处理大量输入文件。我的最终数据帧大约有9800万行。我需要将其从Databricks导出，以便我可以将其导入Power BI进行报告。Power BI目前似乎没有一个连接器可以解释分区的性质，如果我只是简单地将数据帧写入CSV。使用合并或转换为pandas数据帧并导出到CSV的速度非常慢

浏览 10提问于2019-04-29得票数 0

1回答

Parquet和Spark中的分区策略

、

我有一个工作，读取csv文件，将其转换为数据帧，并在Parquet中写入。我正在使用附加模式，同时写入数据在Parquet。使用这种方法，在每次编写中都会生成一个单独的Parquet文件。我的问题是： 1)如果每次我将数据写入Parquet模式时，会追加一个新文件，它会不会影响读取性能(因为数据</

浏览 1提问于2018-09-12得票数 3

2回答

熊猫使用for循环创建多个数据帧

、、

我正在寻找高效的Python代码来：例如，在我的代码中：csv_files = glob.glob(EU_path +(data) list_EU_data是10个欧洲国家产品销售的10个csv文件的列表。在这里，我希望在预处理数据帧的同时创建多个

浏览 4提问于2020-11-16得票数 1

回答已采纳

1回答

Python，pandas连接多个数据帧

、、、、

我有一个csv文件列表，我使用pd.read_csv()将其加载为数据帧。我目前正在尝试遍历csv列表，并使用pd.concat()方法并将轴参数设置为1，以便按列将所有数据帧添加到一起。它如我所希望的那样工作，但是我遇到了这个问题，因为当我连接它们时，所有的数据框都有相同的列名，例如，我得到了10列，所有列的关键字都是&qu

浏览 3提问于2017-05-17得票数 0

2回答

Databricks:转换数据框并导出为xls / xlsx

、

对于Databricks:转换数据帧并导出到xls / xlsx并保存到blob存储中是可能的吗？使用Python

浏览 41提问于2019-09-30得票数 0

1回答

Pandas样式的数据帧-按分类列显示的颜色条

、、

df = pd.concat([grps, df], axis = 1) df.columns = ['group', 1, 2, 3]# style the dataframe. style_df = (df.

浏览 7提问于2020-02-23得票数 0

2回答

使用python和oracle db在文件中获取、隔离和写入相应数据的最快方法。

、、、、

我一直在尝试从db中获取大量数据，只是为了对其进行解析和分离，然后使用python将其写入csv文件。数据相当庞大，所以我决定将其转储到一个临时文件中，在那里我会将其分离，并从中创建多个csv文件(我认为处理如此多的数据对python来说将是非常耗费精力的，这就是为什么要进行转储)。现在，只有写入这个临时文件的数据超过了时间限制

浏览 0提问于2020-01-07得票数 0

0回答

过滤`input_file_name`上的火花路径

、

有没有一种有效的方法，可以在不读取所有文件内容的情况下，将输入文件过滤到基于input_file_name的spark数据帧中？我在S3上有一条路径，里面有许多我正在通过spark.read.csv("path/to/csvs/*")阅读的大型压缩csvs (xx.csv.gz)。我想根据

浏览 2提问于2017-06-13得票数 0

2回答

如何从excel导入数据后在python中永久保存

、

我有一个数据帧，看起来像这样：Out[2]: DateGurunanak Jayanti这是从excel文件导入的我想知道是否有一种方法，一旦它被导入到数据帧中，我可以以某种方式永久地保存

浏览 19提问于2020-05-26得票数 0

回答已采纳

1回答

在Python中(或者一般在CS中)是循环的还是分层的类似字典的数据结构？

、、、、

需要注意的是，执行DataFrame groupby、数据透视表、堆栈/非堆栈，甚至逻辑查找，并选择数据帧的一个子集会减慢速度(因为查看整个注册表需要很长时间。根据可用的列值重新排列或设置数据帧的成本需要一段时间-我正在尝试找出是否有好的数据结构或算法可以解决这个问题。我也在试着看看Pandas是否有一种非常有效<em

浏览 2提问于2020-01-23得票数 1

1回答

分割数据并编写多个面图

、、、

我有一个数据，它有关于12个局部地区= LA的信息。我可以将这个子集的结果写入全局环境(需要吗？)如何将x或y的内容绘制成与写入

浏览 1提问于2018-04-26得票数 0

回答已采纳

1回答

减法R数据帧

我正在删除一些数据帧，并确信有一个更好的方法。基本上，我有两个数据帧。第一个是实际数据。第二个有一些元数据，更重要的是，有一个标志来说明行是否在我感兴趣的子集中。我想要做的就是取出子集并编写一个文件。20+最小值仅用于子集并写入数

浏览 0提问于2015-03-16得票数 0

2回答

合并和聚合多个data.frames

、

我有一个.csv文件集合，每个文件都包含相同数量的行和列。每个文件包含一些以A、B、C为特征的测试对象的观察值(列'value')，并采用类似于以下形式：1 1 1 0.51 2 1 0.1 1 2 2 0.2假设将每个文件读入到单独的数据帧中。将这些数

浏览 4提问于2014-03-03得票数 1

2回答

Spark选项: inferSchema vs header = true

、、、、

对的引用我认为我需要.options("inferSchema" , "true")和.option("header", "true")来打印我的标题，但显然我仍然可以打印我的csv的标题。它需要额外传递一次数据，默认情况下为false“的含义。

浏览 0提问于2019-07-08得票数 13

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何编写一个for循环，将多个csv文件读入R，并对数据进行子集，从而为ggplot创建干净的数据帧？

如何根据字段将数据从CSV加载到单独的Hadoop HDFS目录

将多个pandas数据帧附加到单个csv，但仅在第一次附加时包含报头

Pandas处理大型CSV数据

pyspark在输出中写入许多较小的文件

将大型数据框导出到可供Power BI使用的单个文件的最佳方法

Parquet和Spark中的分区策略

熊猫使用for循环创建多个数据帧

Python，pandas连接多个数据帧

Databricks:转换数据框并导出为xls / xlsx

Pandas样式的数据帧-按分类列显示的颜色条

使用python和oracle db在文件中获取、隔离和写入相应数据的最快方法。

过滤`input_file_name`上的火花路径

如何从excel导入数据后在python中永久保存

在Python中(或者一般在CS中)是循环的还是分层的类似字典的数据结构？

分割数据并编写多个面图

减法R数据帧

合并和聚合多个data.frames

Spark选项: inferSchema vs header = true

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐