Spark df.select返回带有标题的csv的不正确列

是指在使用Spark的DataFrame API中的select操作时，将DataFrame转换为CSV格式文件时，生成的CSV文件中包含了错误的列。

解决这个问题的方法是使用Spark的write操作将DataFrame保存为CSV文件，并在保存时指定合适的选项。具体步骤如下：

首先，确保你已经创建了一个SparkSession对象，可以使用以下代码创建：

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CSV Writer").getOrCreate()

然后，加载你的数据到一个DataFrame中，可以使用以下代码：

df = spark.read.format("csv").option("header", "true").load("your_data.csv")

这里假设你的数据已经存储在名为"your_data.csv"的CSV文件中，并且第一行是列名。

接下来，使用select操作选择你需要的列，并将DataFrame保存为CSV文件，可以使用以下代码：

selected_df = df.select("column1", "column2", ...)  # 选择你需要的列
selected_df.write.format("csv").option("header", "true").save("output.csv")

这里将"column1"、"column2"等替换为你需要选择的列名。保存的CSV文件将命名为"output.csv"。

需要注意的是，通过select操作选择的列将会按照指定的顺序保存到CSV文件中。

推荐的腾讯云相关产品是腾讯云的云数据仓库CDW（Cloud Data Warehouse），它是一种高性能、弹性扩展的云端数据仓库服务，适用于大规模数据存储和分析场景。CDW提供了与Spark集成的功能，可以方便地进行数据处理和分析。

腾讯云CDW产品介绍链接地址：https://cloud.tencent.com/product/cdw

页面内容是否对你有帮助？

有帮助

没帮助

Spark df.select返回带有标题的csv的不正确列

scala、csv、apache-spark、apache-spark-sql、columnheader

我正在实现Spark数据源接口v1的buildScan方法。override def buildScan(requiredColumns: Array[String], filters: Array[Filter]): RDD[Row] = 我正在尝试读取带有标头的.csv文件。rdd df.select(F) or df.select(E) 总是返回第一列。------a1a3a5 ---

浏览 16提问于2019-01-15得票数 0

2回答

如何将dataframe转换为一个文本文件？

apache-spark

这个表有各种数据类型的数据。我试图将其保存为文本文件，但得到了一个错误：文本数据源只支持单个列，并且有5列。我的要求是创建一个文本文件，如下所示。

浏览 3提问于2021-02-09得票数 0

2回答

PySpark DataFrame在使用.select()时显示不同的结果

python、apache-spark、pyspark

="\"") df = spark.read.csv(_file, header=True) -完全选择不正确的列。df = spark.read.csv(_f

浏览 19提问于2022-08-20得票数 2

1回答

无法过滤存储在spark 2.2.0中数据中的CSV列

scala、apache-spark、apache-spark-sql

我正在使用spark和scala从本地机器读取一个CSV文件，并将其存储到dataframe (称为df)中。我必须只从df中选择几个具有新别名名称的选定列，然后保存到新的newDf中。: [history_temp.time, history_temp.poc] 下面是从本地机器读取csv文件所编写的代码。spark.read.format("com.databricks.spark.csv")

浏览 6提问于2019-07-08得票数 2

回答已采纳

4回答

带有标头的星火SQLContext查询

apache-spark、apache-spark-sql、spark-csv

我使用SQLContext读取CSV文件，如下所示： csv`src/test/resources/afile.csv` WHERE firstcolumn=21") val d

浏览 1提问于2018-12-20得票数 0

回答已采纳

3回答

带点火花的列名

scala、apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

我正在尝试从DataFrame中获取列，并将其转换为RDD[Vector]。问题是，我有一些列的名称中有一个“点”，如下面的数据集：1,2,3,41,12,10,5val df = spark.read.format("csv").options(Map("hea

浏览 1提问于2017-06-05得票数 30

1回答

如何从星火数据帧中删除多列？

csv、apache-spark、spark-dataframe

我有一个CSV，其中一些列标题及其对应值为null。我想知道如何删除名为null的列？" |"iuhy"|"null"|"null"|"null"我希望删除所有具有null头的列，

浏览 5提问于2017-10-16得票数 1

回答已采纳

1回答

火花放电数据的模糊搜索

python、pyspark、fuzzywuzzy

我有一个大型csv文件(>9600万行)和七列。我想对其中一个列进行模糊搜索，并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的，我通过pyspark将它加载到一些dataframe中。现在，我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的行。但是，fuzzywuzzy函数提取返回一些我无法使用的内容： process.extract("appel", df

浏览 9提问于2022-09-27得票数 0

3回答

Intellij，Scala读取txt文件并选择标头并将其用作数据格式

scala、apache-spark、intellij-idea

在阅读时，我希望从中选择特定的标题。还有，我应该做什么进口？import org.apache.spark.resources/data.txt") }还有我的sbt_2.11 "org.apache.spark</e

浏览 2提问于2018-12-24得票数 0

回答已采纳

2回答

Spark DataFrame在所有列上都是唯一的

scala、apache-spark

我有以下几点： %spark import org.apache.spark.sql.functions._ .format("csv") .option("header("Dis

浏览 26提问于2021-11-05得票数 1

回答已采纳

1回答

Spark :在spark API中有没有等同于Spark SQL的横向视图？

apache-spark、lateral-join、sparkapi

标题说明了一切：在SPARK API中有没有等同于Spark SQL命令的东西，这样我就可以从包含多列数据结构的LATERAL VIEW中生成一列，然后将该结构中的列作为单独的列横向分布到父dataFrame等同于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))的东西

浏览 16提问于2021-02-25得票数 0

回答已采纳

1回答

pyspark groupby使用字符串groupby键在输出中生成多行

sql、pyspark

new_df = df.select('key','value') \ .groupBy('key') \ .save(CSV_LOCAL_PATH) 例如，CSV中<

浏览 12提问于2019-11-12得票数 0

回答已采纳

1回答

Spark多字符分隔符写入写入的数据中不可打印的字符

python、pyspark、apache-spark-sql

数据本身有一些json文档作为列。我觉得spark 2.3很有趣，还没有升级到更高的版本 df.selectoption("escapeQuotes&qu

浏览 32提问于2021-06-05得票数 0

回答已采纳

1回答

将电火花列值左移1

dataframe、pyspark

例如，"Mike“应该在"name”的列下，而不是年龄。 |name|age|height |weight +-------------+--------------------+-实际上，我有200多个列和超过100万行数据。

浏览 1提问于2020-08-05得票数 1

回答已采纳

1回答

PySpark删除所有特殊字符名称中的特殊字符-错误无法解决给定列

dataframe、pyspark

我正在尝试从csv创建的数据文件中的名称中删除特殊字符。有100多个列，有些有长长的名字。我尝试过许多方法--至少在其中一个列上返回一个错误？df = spark.read.format("com.databricks.spark.csv") \ .option(") \ .optio

浏览 12提问于2021-09-23得票数 1

回答已采纳

6回答

选择PySpark数据框中的列

python、apache-spark、pyspark、apache-spark-sql

我正在寻找一种在PySpark中选择数据帧列的方法。对于第一行，我知道我可以使用df.first()，但不确定列，因为它们没有列名。我有5列，我想遍历每一列。

浏览 289提问于2017-10-18得票数 36

回答已采纳

1回答

JSON格式星火DataFrame列上的隐式模式发现

scala、apache-spark

我正在用Scala编写一个ETL (2.4)作业，在;上读取带有glob模式的-separated CSV文件。数据被加载到一个DataFrame中，并包含一个列(假设它被命名为custom)，其中包含一个JSON格式的字符串(、多层嵌套)。其目标是从该列自动推断模式，以便可以为S3中Parquet文件上的写接收器构造模式。这篇文章()建议，Spark2.4中的schema_of_json可以从JSON格式的<em

浏览 0提问于2019-02-14得票数 9

1回答

将嵌套json的几个字段转换为Pyspark中的字典

apache-spark、pyspark、apache-spark-sql

我有一个巨大的嵌套json，如下所示 "meta": { "unsuccessful_expectations": 3 "success": false我想导出一个具有以下血统值的表: results.expectation_config

浏览 4提问于2022-02-28得票数 -1

1回答

用unix_timestamp方法创建火花时间戳

apache-spark、spark-dataframe

我有个csv文件。它有许多列，其中两列是月和年。月份为1.12，而2013年.(例如)。我需要创建一个mm/yyyy格式的时间戳，作为一个新列，比如“时间戳”。我试过下面的片段，但失败了。scala> val df = spark.read.format("csv").option("header", "true").load("/user/bala

浏览 2提问于2016-09-29得票数 0

回答已采纳

1回答

Spark SQL:有没有办法区分同名的列？

sql、apache-spark、apache-spark-sql

我有一个带有标题的csv，其中的列具有相同的名称。id name age height name 2 Joseph 24 1.89 我只想使用Spark SQL获取名字列

浏览 2提问于2019-04-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark df.select返回带有标题的csv的不正确列

相关·内容

Spark df.select返回带有标题的csv的不正确列

如何将dataframe转换为一个文本文件？

PySpark DataFrame在使用.select()时显示不同的结果

无法过滤存储在spark 2.2.0中数据中的CSV列

带有标头的星火SQLContext查询

带点火花的列名

如何从星火数据帧中删除多列？

火花放电数据的模糊搜索

Intellij，Scala读取txt文件并选择标头并将其用作数据格式

Spark DataFrame在所有列上都是唯一的

Spark :在spark API中有没有等同于Spark SQL的横向视图？

pyspark groupby使用字符串groupby键在输出中生成多行

Spark多字符分隔符写入写入的数据中不可打印的字符

将电火花列值左移1

PySpark删除所有特殊字符名称中的特殊字符-错误无法解决给定列

选择PySpark数据框中的列

JSON格式星火DataFrame列上的隐式模式发现

将嵌套json的几个字段转换为Pyspark中的字典

用unix_timestamp方法创建火花时间戳

Spark SQL:有没有办法区分同名的列？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐