如何根据空格行从df分区到多个.csv？

要根据空格行将数据从一个分区（例如df）导出到多个.csv文件，你可以按照以下步骤操作：

基础概念

分区（Partitioning）：在数据处理中，分区是将数据分割成更小、更易于管理的部分的过程。
CSV文件：逗号分隔值（Comma-Separated Values）文件，是一种常见的数据交换格式。

类型

基于条件的分割：根据某些条件（如空格行）将数据分割成多个文件。
基于数量的分割：将数据均匀分割成固定数量的文件。

应用场景

大数据处理：处理大型数据集时，分割数据可以提高处理速度。
日志分析：将日志文件按日期或事件类型分割，便于后续分析。

解决方案

假设你有一个DataFrame df，并且你想根据空格行将其分割成多个.csv文件。以下是一个示例代码：

import pandas as pd

# 假设df是你的原始DataFrame
# df = pd.read_csv('your_input_file.csv')

# 找到空格行的索引
blank_rows = df[df.isnull().all(axis=1)].index

# 分割DataFrame并保存为多个CSV文件
for i in range(len(blank_rows) - 1):
    start_idx = blank_rows[i] + 1
    end_idx = blank_rows[i + 1]
    part_df = df.iloc[start_idx:end_idx]
    part_df.to_csv(f'output_part_{i+1}.csv', index=False)

# 处理最后一个部分
if len(blank_rows) > 0:
    last_part_df = df.iloc[blank_rows[-1] + 1:]
    last_part_df.to_csv('output_part_last.csv', index=False)

解释

找到空格行：使用df.isnull().all(axis=1)找到所有空行，并获取它们的索引。
分割DataFrame：根据空行索引将DataFrame分割成多个部分。
保存为CSV文件：将每个部分保存为一个独立的.csv文件。

参考链接

通过这种方式，你可以根据空格行将数据从一个分区导出到多个.csv文件。希望这对你有所帮助！

如何根据空格行从df分区到多个.csv？

、、

基本上，每个数据“集”都是由一个新的行来描述的。我需要每一系列行在每一列为空(x = \t\r\n)时保存为.csv。在我的数据集中大约有370个。例如，这是我的数据集的样子(不带时间戳)。我需要将行满或\t\r\n之后的每一组连续行导出为单独的.csv。我在做文本分析。每组行具有高度可变的组大小，表示不同主题上的线程。我需要分析这些单独的线程。做这件事最好的方法是什么？

浏览 26提问于2021-02-25得票数 2

回答已采纳

2回答

Dask数据文件:读取多个文件&将文件名存储在列中

、、、

我经常使用dask.dataframe读取多个文件，如下所示：然而，每一行的起源，即数据是从哪个文件读取的是否有方法将其添加为列，例如，如果df.loc[:100, 'partition'] = 'file1.csv'是第一个文件并包含100行，则为file1.<e

浏览 0提问于2018-02-14得票数 6

回答已采纳

2回答

如何通过key对RDD进行重新分区，然后打包到分片？

、、

我有许多包含数百万行格式的文件：这种重新分区的方式非常慢，并且为我创建了超过百万个小的~500b文件： rdd_df.write.partitionBy("id").c

浏览 0提问于2020-10-15得票数 1

2回答

如何在dask中使用'loc‘选择数据帧的列

、、、、

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？> import dask.dataframe as dd> y = df.loc['131094/local&#x

浏览 1提问于2018-08-26得票数 4

2回答

Bash +删除行中的空格

、、、、

我编写了以下bash代码，以便使用磁盘分区创建CSV路径，这样每个分区都将获得新的增量dev diskmount_p=({a..z})但是当我打印$path时，我们得到了每个部分之间的空格</

浏览 6提问于2017-12-20得票数 0

回答已采纳

1回答

在dask中加载一个大型CSV文件并设置索引(0-n)

、、、

我以以下方式加载csv文件 sep=';', blocksize如何使用set_index函数设置索引？如果csv文件中有n+1行，我想要的索引是0-n。请注意，len(除数)等于n分区</em

浏览 8提问于2022-05-02得票数 0

2回答

如何将我的dataframe写出为给定列的每个值一个文件？

、

我有一个数据帧，它有一个名为key的列，值的范围从00到FF (以字符串形式)。理想情况下，我会将数据帧编写为每个key值一个或多个文件。也就是说，我不希望一个分区有多个可能的key值。我目前的方法不起作用，因为它只生成一个文件： import dask.dataframe as dd "/Users/ecerulm/Downloads['basename'

浏览 20提问于2020-11-09得票数 1

1回答

请帮帮我，因为我是Pyspark的新手，我已经挂载了，现在我正在读取存储在azure blob存储容器中的CSV文件。将使用名称"part-00000-tid-84371752119947096-333f1e37-6fdc-40d0-97f5-78cee0b108cf-31-1-c000.csv“创建被覆盖的文件代码： df = spark.read.csv("/mnt/ndemo/nsalman/addresses.csv", in

浏览 26提问于2021-09-30得票数 1

回答已采纳

3回答

spark.csv如何确定读取时的分区数量？

在Spark 2.2.0中:我正在读入一个文件，使用对于一个350MB的文件，我在一个系统中使用77个分区，在另一个系统中使用88个分区。对于一个28 GB的文件，我还获得了226个分区，大约为28*1024MB/128MB。问题是，Spark CSV数据源如何确定这个默认的分区数量？

浏览 13提问于2018-05-24得票数 1

2回答

Dataproc未使用pyspark并行处理大数据

、、

我开发了一个pyspark代码，它从GCS读取一个csv文件。csv文件的大小约为30G。df_raw = ( .read .option('header', 'true').option('quote', '"') .<em

浏览 4提问于2021-05-03得票数 0

3回答

Azure数据库将文件写入Azure Data 2

、、、、

，我搞不懂它为什么要这么做，而不是真正地把csv保存到那个位置。如果我对.show数据文件执行了一个df_join ()，那么它就会输出正确的外观结果。但是.write没有正常工作。val df_names = spark.read.option("header", "true").csv("/mnt/datalake/raw/names.csv") val df_addresses= s

浏览 0提问于2019-05-05得票数 0

1回答

在Dask DataFrame中的分区间分配行

、、

期望:当我对给定的数据进行分区时，行将大致均匀地分布到每个分区中。然后，当我将数据写入csv时，得到的n个csv(在本例中是10)的长度类似于相同的长度。现实:当我运行下面的代码时，我发现所有行都在export_results-0.csv中，其余的9个csvs是空的，而不是一些均匀的行分布。import dask.dataframe as dd im

浏览 1提问于2017-06-16得票数 5

回答已采纳

2回答

用python从CSV文件中删除空白单元格

、、

我有一个使用python转换为csv的文本文件。文本文件具有使用多个空格设置的列。我的代码剥离行，将一行中的两个空格转换为逗号，然后再分割行。当我这样做时，列不对齐，因为有些列比其他列有更多的空白。如何在代码中添加将删除csv文件中空白单元格的内容？我已经尝试将csv文件转换为一个熊猫数据库，但是当我运行df = pd.read_csv(&

浏览 1提问于2019-04-16得票数 1

2回答

星火知道DataFrame的分区键吗？

、、

我有一个csv数据集，我将其保存为磁盘上的拼花文件，如下所示： .read .option("header", true).option("delimiter", ";") .load("SomeFile.csv")) val df = <em

浏览 0提问于2018-01-26得票数 21

回答已采纳

1回答

将dataframe转换为csv时删除行

、、

我正在尝试根据以下条件从数据帧创建csv :如果特定列不为空，则需要将其添加到csv文件中。我的代码确实根据条件转换了文件，但最后添加了额外的null行。下面是我的代码： df[['FACILITY', 'TRUCK_ID','LICENSES']].t

浏览 0提问于2019-11-22得票数 1

1回答

Python/Pandas -删除第一行，未命名: 0，未命名: 1，未命名: 2，未命名: 3，未命名: 4，未命名: 5，未命名: 6，未命名:7

、

我将一个xlsm文件(包含多个工作表)分割成一个csv，每个工作表作为一个单独的csv文件。在此过程中，我将删除前4行，只保留从第5行开始的标头。import pandas as pdfor sheet in xl.sheet_names: <em

浏览 7提问于2022-02-18得票数 0

回答已采纳

1回答

Python/Pandas -将一个csv合并为多个csv以实现非正规化

、

我有一堆从关系数据库中提取出来的大型csv文件。例如，我有customers.csv、address.csv和customer-address.csv，它们映射了关系的键值。我在这里找到了一个关于如何合并文件的答案：df1 = pd.read_csv(file1)df3 = pd.read_csv=&

浏览 0提问于2018-03-08得票数 0

回答已采纳

1回答

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

、、、、

我试图从google存储中读取大量的csv文件(多个文件)。我使用Dask分发库进行并行计算，但我面临的问题是，虽然我提到了块大小(100 my )，但我不知道如何按分区读取分区并将其保存到postgres数据库中，这样我就不想让内存超载。(): df = dd.read_csv('gs://mybucket/renish/*.

浏览 0提问于2019-06-30得票数 2

回答已采纳

3回答

df.repartition和DataFrameWriter partitionBy之间的区别是什么？

、

我希望这两种方法都能用于“基于数据帧列的数据分区”？或者有什么不同？

浏览 4提问于2016-11-04得票数 60

回答已采纳

1回答

是否有一种方法可以使用Impala将现有的文本文件分区，而不将文件预分割到分区目录中？

假设我有一个"fruitsbought.csv“文件，其中包含许多包含日期字段的记录。为了获得更好的性能，是否可以根据文本文件创建“成果”表，同时创建一个分区，其中fruitsbought.txt中所有与该分区相匹配的行(例如，如果我想按年份和月份来创建)？我听说您可以创建一个空表，设置分区，然后使用"Insert“语句，这些语句恰好包含记录进入的分区。尽管在我当前的例子中，我已经有了一个"fruitsbought.csv

浏览 0提问于2014-06-17得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据空格行从df分区到多个.csv？

基础概念

相关优势

类型

应用场景

解决方案

解释

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐