使用SCALA删除DataFrame中的空格。(我已经将CSV文件加载到RDD中，然后尝试删除其中的空格

使用Scala删除DataFrame中的空格可以通过以下步骤实现：

首先，将CSV文件加载到RDD中。假设你已经完成了这一步骤。
将RDD转换为DataFrame。可以使用SparkSession的createDataFrame方法将RDD转换为DataFrame。假设你的RDD命名为rdd，可以使用以下代码将其转换为DataFrame：

val spark = SparkSession.builder().appName("Remove Spaces").getOrCreate()
import spark.implicits._
val df = rdd.toDF()

删除DataFrame中的空格。可以使用Spark的内置函数trim来删除DataFrame中字符串列的空格。trim函数会删除字符串前后的空格。假设你要删除名为"column_name"的列中的空格，可以使用以下代码：

import org.apache.spark.sql.functions._
val dfWithoutSpaces = df.withColumn("column_name", trim(col("column_name")))

如果你想删除所有列中的空格，可以使用循环遍历所有列，并应用trim函数。以下是一个示例代码：

val columns = df.columns
var dfWithoutSpaces = df
for (column <- columns) {
  dfWithoutSpaces = dfWithoutSpaces.withColumn(column, trim(col(column)))
}

最后，你可以对DataFrame进行进一步的处理或保存到文件中。例如，你可以将DataFrame保存为CSV文件：

dfWithoutSpaces.write.format("csv").save("path/to/save/file.csv")

这样，你就成功地使用Scala删除了DataFrame中的空格。请注意，以上代码中的"column_name"应替换为你要删除空格的实际列名，"path/to/save/file.csv"应替换为你要保存CSV文件的实际路径。

使用SCALA删除DataFrame中的空格。(我已经将CSV文件加载到RDD中，然后尝试删除其中的空格

、、

我的CSV文件中的数据包含不需要的空格和空值。我已经把这个文件加载到spark RDD中了，到目前为止没有问题。现在我必须从这个RDD中删除空格和空值。怎么做呢?有没有人能帮我？._ val inpp = spark.read.csv("file:

浏览 41提问于2019-05-27得票数 0

2回答

pyspark: dataframe头部转换

、、、、

我正在将csv加载到pyspark dataframe中。我正在尝试删除列标题中的空格和更多特殊字符，如"("，")“和"/”。我可以删除列标题中的空格，如下所示。它只删除列中的空格，而不删除</e

浏览 63提问于2020-12-15得票数 0

回答已采纳

1回答

如何消除Server字符串列中的字符

、、、、

我有一个带有字段.CSV的Response文件。我使用SSIS将该.csv文件加载到Server表中。.csv文件在响应字段的文本之间有一些空格，当我将它们加载到表中时，空格将显示为Â。如何从表中的列中删除</em

浏览 4提问于2015-02-18得票数 1

回答已采纳

2回答

如何在spark中使用scala从多个文件中删除前几行/头

、、

我能够使用下面的代码删除单个文件的前几行：删除前5行： scala> valData = file.mapPartitionsWithIndex{ (idx, iter) => if (idx == 0) iter.drop(

浏览 54提问于2016-08-02得票数 1

回答已采纳

2回答

使用命令行修剪csv文件

、、、

我有非常大的包含原始数据的.csv文件。许多字段有前导空格和尾随空格，许多多词字段值在字符组/单词之间应该只有一个空格，但却有额外的空格，例如这应该是：前导空格、尾随空格和额外空格从一个额外空格到六个额外

浏览 0提问于2016-02-13得票数 0

2回答

火花上的Scala数据分析

、、、、

我是Scala新手，我必须使用Scala和Spark的SQL、Mllib和GraphX来对巨大的数据集进行一些分析。我想做的分析是：中心性度量(度、特征向量、边缘间度、贴近度)数据位于Hadoop集群中的CSV文件(60 in (3年跨国数据))中。我的问题是访问数据和执行

浏览 2提问于2016-09-25得票数 3

1回答

我有一个spark scala dataframe，它有列"Name“，我已经将该列的值提取到scala arraystring中 org_name: Array[String] = Array(SARATOGASENIOR HIGH SCHOOL) 我想用_替换空格，并将该值编码为utf-8 (只要用其他字符替换特殊字符，任何编码都可以)，因此如果有任何特殊字符，这些字符将被删除。稍后，

浏览 21提问于2020-07-15得票数 0

1回答

Informatica 10 -删除名称中包含空格的文件

如何删除名称中包含空格的文件？我使用这个表来创建一个.bat文件来保存他们的名字。这是我在命令中运行的代码，用于删除所有不需要的文件。如果文件名中没有空格，则可以正常

浏览 0提问于2017-11-27得票数 0

1回答

如何使用带分隔符和不重复引用文本的熊猫csv

、

我正在尝试编写一个python脚本，它基本上是使用Pandas readCSV读取CSV/TSV文件(从CSV输入的示例，如下所示)。,35.6,0.0,0.0,1.0,0.6784 然后，通过分别保留column1和column8，删除不需要的数据栏，并执行一个应用函数，从column8中剥离特殊字符并将其转换为小写，然后尝试使用熊猫

浏览 0提问于2019-08-27得票数 1

3回答

如何用模式推理将RDD[String]写到拼图文件中？

、、、

我的Spark Streaming作业需要处理RDD[String]，其中字符串对应于csv文件的一行。我事先不知道模式，所以需要从RDD推断模式，然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件，我只需使用模式推断将所有内容加载到<em

浏览 5提问于2017-06-14得票数 2

1回答

Pyspark dataframe:从csv加载，然后删除第一行

、、、、

我能够将csv文件从Azure datalake加载到pyspark dataframe中。如何删除第一行，并使第二行作为我的标题？我见过一些RDD解决方案。但我无法加载该文件，并且使用以下代码时出现错误"RDD is file“ items = sc.textFile(f"abfss:/

浏览 30提问于2020-03-20得票数 0

回答已采纳

2回答

加载csv文件时出错

、

我正在尝试将csv文件加载到我的表中。我已经运行了以下抛出错误的代码 LOAD DATA LOCAL INFILE 'info.csv' INTO TABLE tbl_countryip (ipstart, ipend, countrycode',' ENCLOSED BY '"' LINES TERMINATE

浏览 0提问于2015-12-29得票数 1

2回答

将csv文件加载到RDD和Dataframe中的区别

、、

我不知道这问题是否较早前提出。可能是一个可能的复制，但我无法找到坚持这样做的用例。如我们所知，我们可以直接将csv文件加载到dataframe，并可以将其加载到RDD中，然后稍后将该RDD转换为dataframe。此外，我们还可以创建直接读取csv文件的dataframe。<

浏览 0提问于2018-11-29得票数 0

回答已采纳

2回答

如何在scala中从文本文件中提取每个单词

、、、

我是Scala的新手。我有一个文本文件，它只有一行，其中的文件单词用分号(；)分隔。我想要提取每个单词，删除空格，将所有内容转换为小写，并根据每个单词的索引调用它们。REPL副本 scala> val file = sc.textFile("newListUpper2.txt") file: org.ap

浏览 63提问于2020-01-08得票数 1

回答已采纳

1回答

当字符串中出现str_replace_all时，仍然存在空格

、

我将缩小的文件名加载到数据帧中，然后使用str_replace_all(df.filenames，“"，"")删除文件名中的所有空格。当我查看新的数据帧时，仍然有空格。我已经搜索了StackOverflow和RStudioUsers网站。我<em

浏览 16提问于2019-04-12得票数 1

3回答

RDD[Array[String]]到Dataframe

、、、

我是星火和蜂巢的新手，我的目标是将一个分隔的(比如csv)加载到Hive表中。经过一段时间的阅读，我发现将数据加载到蜂巢的路径是csv->dataframe->Hive。(如果我错了，请纠正我)。, 70000,Aus 我使用以下命令读取

浏览 2提问于2016-12-30得票数 2

回答已采纳

1回答

从csv列中删除换行符/换行符

、、

我在一个文件夹中有多个csv。我想把它们合并成一个，但是我得到了错误，因为一些列有回车符，所以当我试图将它们合并成一个时，我得到了错误。我的主要问题是如何从每个csv中删除回车，并将它们全部合并到一个csv中。由于换行，我的列也在漂移并造成问题。谢谢。csv_list = glob.glob(os.path.j

浏览 369提问于2021-09-27得票数 0

1回答

为什么Spark在读取文本文件时将RDD* ID增加2而不是1？*

、、

在使用spark-shell时，我注意到了一些有趣的事情，我很好奇为什么会发生这种情况。我使用基本语法将一个文本文件加载到Spark中，然后简单地重复这个命令。REPL的产出如下：myreviews: org.apach

浏览 0提问于2018-11-29得票数 0

回答已采纳

1回答

Pandas Dataframe中的空白列

、、

当转换为Pandas DataFrame时，如何忽略行中的最后一个空格？Total 2;32;2;0.76;4;1;5;4.00; 我循环遍历'Column #‘行，先创建我的列名(so 4列)，然后解析下面的行来使用'但是，我的一些文件在每一行的末尾都包含一个“；”，如上面所示，所以我<em

浏览 2提问于2015-07-07得票数 3

回答已采纳

1回答

无法从DataFrame中删除空格

我不能从DataFrame中删除空格。已尝试下一路径，但未成功：.replace(‘'，'')请帮我解决这个问题。有问题的列是'gdp_per_capita‘

浏览 0提问于2021-02-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用SCALA删除DataFrame中的空格。(我已经将CSV文件加载到RDD中，然后尝试删除其中的空格

相关·内容

使用SCALA删除DataFrame中的空格。(我已经将CSV文件加载到RDD中，然后尝试删除其中的空格

pyspark: dataframe头部转换

如何消除Server字符串列中的字符

如何在spark中使用scala从多个文件中删除前几行/头

使用命令行修剪csv文件

火花上的Scala数据分析

如何将scala数组/列表中的空格替换为下划线和编码值

Informatica 10 -删除名称中包含空格的文件

如何使用带分隔符和不重复引用文本的熊猫csv

如何用模式推理将RDD[String]写到拼图文件中？

Pyspark dataframe:从csv加载，然后删除第一行

加载csv文件时出错

将csv文件加载到RDD和Dataframe中的区别

如何在scala中从文本文件中提取每个单词

当字符串中出现str_replace_all时，仍然存在空格

RDD[Array[String]]到Dataframe

从csv列中删除换行符/换行符

为什么Spark在读取文本文件时将RDD* ID增加2而不是1？*

Pandas Dataframe中的空白列

无法从DataFrame中删除空格

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐