如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

在pyspark中写入csv文件时为列保留数据中的空格，可以通过设置csv文件的选项来实现。具体步骤如下：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建SparkSession对象：

spark = SparkSession.builder.appName("Write CSV with Spaces").getOrCreate()

读取数据源文件为DataFrame：

df = spark.read.csv("source.csv", header=True)

这里假设源文件名为"source.csv"，并且第一行是列名。

使用withColumn函数将每一列的数据进行处理，保留空格：

df_with_spaces = df.withColumn("column_name", col("column_name").cast("string"))

将"column_name"替换为实际的列名。

将处理后的DataFrame写入csv文件：

df_with_spaces.write.csv("output.csv", header=True)

这里假设输出文件名为"output.csv"，并且保留列名。

至此，你已经成功在pyspark中写入csv文件时为列保留数据中的空格。

关于pyspark和Spark的更多信息，你可以参考腾讯云的产品介绍链接：

腾讯云Spark产品介绍

请注意，以上答案仅供参考，具体实现方式可能因环境和需求而异。

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

、、、、

我有一个带有一条记录的输入csv文件。当我在pyspark中读取文件时，dataframe分别有三列a、b、c。A和c有数据，b有4个空格的数据。将文件写入csv时，4个空格的数据丢失，它将以空字符串的形式写入文件

浏览 19提问于2020-02-20得票数 0

1回答

SSIS在csv目标中保留尾随空格

、、、

我在SSIS中遇到了一个问题，在sql SELECT和CSV目标之间执行一个简单的数据流任务。我不会在目标的字符串列中检索尾随空格。看起来SSIS删除了它们。有没有办法在平面文件目标的列中保留尾随空格？示例：输入: sql select，数据为char(8)，右侧带空格，如"9L300“ 输出:平面<e

浏览 1提问于2014-06-23得票数 1

2回答

从多个csv文件中提取一个包含空行的特定列并合并为一个

、、、、

我将csv文件放在同一文件夹中。我只想从我的所有csv文件中获取第5列的数据，并将数据写入单个文件。但我的csv文件中有空行。非常感谢！

浏览 193提问于2018-08-02得票数 -1

回答已采纳

1回答

从databrick写入adls gen 1中的tsv文件时，行分隔符发生更改

、、、、

我想把tsv文件保存到adls gen1。使用下面的命令保存数据，但它将行分隔符写入为"\n"(LF)我想要写入行分隔符"\r\n“ df.coalesce(1).write.mode("overwrite").format("csv").options(delimiter="\t",header="true",nullValue= None,lineSep ='\r\

浏览 9提问于2020-07-25得票数 0

1回答

Pyspark -如何删除数据帧中的前导空格和尾随空格？

、、

我有一个包含10列的spark数据帧，我正在将其写入hdfs中的一个表。我遇到了列(所有字段和所有行)中的前导和尾随空格的问题。from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Networks').getOrCreate()dataset = spark.rea

浏览 33提问于2019-02-22得票数 0

回答已采纳

2回答

在java中使用CSVWriter写入CSV时删除空格

、、

我正在使用JAVA中的CSVWriter从表中读取并写入CSV文件。我的分隔符是'control-A'。但有一列的注释中有空格。那么如何在写入CSV文件时从值中删除空格。我的代码是 Statement stmt = con.createStatement(

浏览 1提问于2015-09-11得票数 2

1回答

Spark:编写一个带有空值的CSV作为空列

、、、

我使用PySpark将数据帧写入CSV文件，如下所示： df.write.csv(PATH, nullValue='') 该数据帧中有一个字符串类型的列。其中一些值为空。使用csv.write()中的选项可以做到这一点吗？谢谢!

浏览 44提问于2019-08-30得票数 3

回答已采纳

2回答

如何在不在pyspark中创建文件夹的情况下写入CSV文件？

、、、

在写入CSV文件时，自动创建文件夹，然后创建具有隐名的csv文件，如何在pyspark中创建具有任何特定名称的CSV，而不是在pandas中创建文件夹。

浏览 7提问于2021-11-09得票数 0

1回答

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

、、

在解决了这个问题之后：How to limit FPGrowth itemesets to just 2 or 3，我正在尝试将使用pyspark的fpgrowth的关联规则输出导出到python中的.csv文件。在运行了近8-10小时后，它给出了一个错误。我的机器有足够的空间和内存。this: ['A&#

浏览 19提问于2019-07-02得票数 2

1回答

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence&#x

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

在写入pd.to_csv时以时间戳格式保留一列

、、

我需要将以下数据帧写入csv： prodid value timestamp columns=['prodid', 'value', 'timestamp']) 当我将此代码写入StringIO缓冲区中的csv时</e

浏览 67提问于2021-11-10得票数 0

回答已采纳

1回答

CSV文件中的数字格式

、、

我有一个宏，它将数据从SQL数据库导入到excel，然后将结果保存为CSV文件。当它保存到CSV时，其中两列的格式会丢失，导致数字不能正确显示。第1列包含12位数字，如“800000000000”，它们在CSV文件中显示为“8E+11”。第2列包含10位数字，如“4880000000”，它们在CSV<

浏览 0提问于2015-06-11得票数 0

1回答

write.format在写入制表符分隔的hdfs文件时添加额外的引号

、

我在pyspark中有一个dataframe，它的模式和值如下所示-|-- C1: string (nullable = true)|12|97| |20||78|93| |40|现在，当我尝试将此数据</

浏览 2提问于2017-07-25得票数 0

1回答

关于在PySpark中写入拼图的问题

、、

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。列的顺序似乎也有问题。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同<

浏览 23提问于2021-01-20得票数 0

2回答

将SAS数据集导出到csv时，会修剪字符中的所有前导空格

、

当我将SAS数据集导出到csv时，它会修剪字符中的所有前导空格。请帮助我保留csv输出中的所有前导空格。使用的语句是：OutFile = "&GMUPath.\20&RptYr.&NeuronQTR..csv" DBMS = CSV</em

浏览 0提问于2013-01-25得票数 3

回答已采纳

1回答

如何推断大熊猫的数据类型

、、、

我有一个数据文件，我在使用pyspark时看到了它：不幸的是，pyspark将所有类型保留为Object我需要将它与我在df2 = pd.read_csv("file.csv")中读到的</e

浏览 0提问于2017-09-18得票数 3

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。column_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有<em

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

使用自定义列和记录删除器读取pyspark中的文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行 from

浏览 11提问于2021-05-26得票数 0

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据帧包含重复列的情况下不起作用。下面是dfFinal数据帧。当写入csv文件时，它给我以

浏览 0提问于2018-10-03得票数 6

2回答

错误代码:在BigQuery上加载数据时无效

、、

我有一个很大的CSV文件(将近10,000行)，我试图将它上传到BigQuery上，但出现了以下错误：有没有人能告诉我一个可能的推理方法？我仔细检查了我的Schema，它看起来没问题。谢谢

浏览 0提问于2016-11-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

相关·内容

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

SSIS在csv目标中保留尾随空格

从多个csv文件中提取一个包含空行的特定列并合并为一个

从databrick写入adls gen 1中的tsv文件时，行分隔符发生更改

Pyspark -如何删除数据帧中的前导空格和尾随空格？

在java中使用CSVWriter写入CSV时删除空格

Spark:编写一个带有空值的CSV作为空列

如何在不在pyspark中创建文件夹的情况下写入CSV文件？

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

如何在postgres驱动程序中使用nextval()？

在写入pd.to_csv时以时间戳格式保留一列

CSV文件中的数字格式

write.format在写入制表符分隔的hdfs文件时添加额外的引号

关于在PySpark中写入拼图的问题

将SAS数据集导出到csv时，会修剪字符中的所有前导空格

如何推断大熊猫的数据类型

如何在Pyspark中替换dataframe的所有空值

使用自定义列和记录删除器读取pyspark中的文件

如何在pyspark中将重复列名的数据帧写入csv文件

错误代码:在BigQuery上加载数据时无效

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐