删除SparkR DataFrame中的重复观测

可以使用distinct()函数。该函数会返回一个新的DataFrame，其中不包含重复的观测。

在SparkR中，DataFrame是一种分布式的数据集合，类似于关系型数据库中的表。它提供了丰富的操作函数来处理和转换数据。

使用distinct()函数可以轻松删除DataFrame中的重复观测。下面是一个示例代码：

# 导入SparkR库
library(SparkR)

# 创建SparkSession
spark <- sparkR.session()

# 创建一个DataFrame
df <- createDataFrame(spark, data.frame(id = c(1, 2, 3, 1, 2), value = c("A", "B", "C", "A", "B")))

# 删除重复观测
distinct_df <- distinct(df)

# 显示结果
showDF(distinct_df)

上述代码中，我们首先导入了SparkR库并创建了一个SparkSession。然后，我们使用createDataFrame()函数创建了一个包含重复观测的DataFrame。接下来，我们使用distinct()函数删除了重复观测，并将结果保存在distinct_df中。最后，我们使用showDF()函数显示了删除重复观测后的DataFrame。

推荐的腾讯云相关产品是腾讯云的云数据库TDSQL，它是一种高性能、可扩展的云数据库服务，适用于各种规模的应用场景。您可以通过以下链接了解更多关于腾讯云云数据库TDSQL的信息：腾讯云云数据库TDSQL产品介绍。

删除SparkR DataFrame中的重复观测

、、、

我有一个带有重复观察的SparkR DataFrame。我找不到一种简单的方法来删除重复项，而且似乎SparkR中没有PySpark dropDuplicates()功能。例如，如果我有以下DataFrame，如何根据fullname被复制这一事实删除第2行和第4行？

浏览 0提问于2017-06-20得票数 1

回答已采纳

1回答

在函数sparkR中删除列

、、

假设我想要编写一个函数来从SparkR DataFrame(版本1.6.0)中删除一列： df[[col]] <- NULL, value = NULL) : 我怎样才能改变我的代码修复它

浏览 0提问于2016-03-01得票数 1

3回答

在SparkR中删除DataFrame的列

、、、

我想知道是否有一种简洁的方法可以在SparkR中删除DataFrame的列，例如在pyspark中的df.drop("column_name")。这是我能得到的最接近的： sdf=SparkR:::callJMethod(df@sdf, "drop",

浏览 11提问于2015-09-18得票数 2

回答已采纳

3回答

我是Hadoop和Spark的新手。我使用的是Spark-2.1.1-bin-hadoop2.7。使用SparkR，我想从Hadoop2.7.3HDFS加载(读取)数据。我知道，我可以使用“hdfs:// the - to - my - file”来指向我的Hadoop文件，但是我在SparkR中找不到一个函数来完成这项工作。read.df()不起作用。我正在使用sparkR.session()连接到我的Spark会话。为了启动Sp

浏览 5提问于2017-08-08得票数 0

1回答

dropDuplicates in SparkR

、

SparkR是否包含函数(根据特定列删除重复行)？我在SOF中遇到了这个。但是，我们没有使用GroupBy，而是在SparkR中有一个dropDuplicates函数吗？

浏览 3提问于2016-05-02得票数 1

回答已采纳

1回答

在pyspark RDD中保存删除的重复项

、

从这里，Removing duplicates from rows based on specific columns in an RDD/Spark DataFrame，我们学习了如何根据一些特定的变量删除重复的观测值如果我想以RDD的形式保存这些重复的观测值，我该怎么做？我猜如果rdd.substract()包含数十亿个观察值，那么RDD的效率可能会很低。

浏览 18提问于2019-09-18得票数 0

1回答

使用sparklyr的回调函数

、、、

我希望使用mapPartitions和减少火花的功能()，使用火花。mapdata = self.rdd.mapPartitions(mycbfunc1(myparam1))然而，在R中，这似乎是不可能的，例如sparklyr库。我检查了RSpark，但它似

浏览 4提问于2016-10-08得票数 2

回答已采纳

2回答

如何将星火DataFrame列转换为列表？

、、、、

我希望将星火DataFrame转换为另一个DataFrame，其具体方式如下：col desA bB ccol desB b,c 结果，我得到了伯爵是否有任何参数(汇总或agg)将列转换为列表或类似的内容，但假设所有操作都是在星火上

浏览 3提问于2017-05-18得票数 1

回答已采纳

2回答

并行化不工作的sparkR

、、

as.character(x))) : 但是，我可以创建数据框：library(SparkRbin-hadoop2.6") library("SparkR", lib.loc=

浏览 1提问于2016-01-08得票数 2

1回答

无法调用sparkRSQL.init函数

我对星火很陌生，并试图运行SparkR页面中提到的示例。经过一些努力，我能够将sparkR安装到我的机器上，并能够运行基本的wordcount示例。但是，当我试图运行时：它说，没有一个名为“sparkRSQL”的包。根据文档，sparkRSQL.init是sparkR</e

浏览 2提问于2015-06-25得票数 1

1回答

使用SparkR删除只具有NA值的列

、、、、

我在databricks中使用SparkR来操作大型数据格式。我有一个spark DataFrame df，我想从其中删除只包含NA值的所有列。在典型的R中，我会使用两种方法或在基R中然而，这两种方法似乎都不适用于SparkR。我也想尽可能多地利用星火的能力来分发工作。=

浏览 0提问于2019-09-12得票数 1

2回答

R和sparkR中的'abs‘函数有什么不同

、、

在sparkR API中，有一些函数的名称与R中的相同。其中一些示例是abs,cosine函数。 R中的abs函数和sparkR中的abs函数有什么区别。abs函数在spark中什么时候执行？sparkR abs函数的文档

浏览 0提问于2015-09-21得票数 0

1回答

无法使用SparkR对数据进行子集，只能使用管道约定执行命令

、、

我操作的数据如下所示：library(magrittr) macDF <- eventsDF %>% SparkR::filter("device =macOS") %>% <

浏览 2提问于2021-07-26得票数 3

回答已采纳

2回答

删除sparkR中的输入日期

、

我有一个DataFrame x，它包含ID和日期。所以给出ID =12.日期= "2012-05-05“"2015-01-01”newdata <- filter(x, x$Date < as.Date(2013-01-01 + P) ) 但是sparkR不接受这一点。

浏览 5提问于2015-08-03得票数 1

回答已采纳

1回答

sparkR中的反序列化错误

、、、

我对SparkR (以及一般的并行化)非常陌生。我在本地运行SparkR (我知道这不是spark的正确用法，但我才刚刚开始)，并且我尝试用sparkR重写代码的一部分，尽管collect通过增加样本数量给我提供了以下错误(对于少量样本没有错误)：，因为我认为它们可能以某种方式相关，尽管我是通过在parallelize中为numSlices设置不同的值来获得它们的)。我认为第一个问题可能是spark、sparkR和R

浏览 0提问于2015-07-23得票数 1

2回答

在DataBricks中是否存在将R数据文件转换为Spark的大小限制？

、、、、

我的问题是:我可以将R数据的子集转换为星火数据，但不能转换整个数据。类似但不相同的问题包括：和library(SparkR)sparkR.version()class(df)将其转换为Spark时： sdf <- as.DataFra

浏览 5提问于2020-01-03得票数 2

回答已采纳

2回答

有没有可能在没有安装R解释器的情况下在Spark中运行SparkR程序？

、、

我的问题是关于在没有R依赖的情况下在spark中运行sparkR程序的可行性。library(SparkR) sc <- sparkR.init(master = "local") #tochild <- c(TRUE,TRUE,FALS

浏览 2提问于2015-09-17得票数 0

3回答

如何在DataFrame中创建单列sparkR？

、

如何在DataFrame中创建单列SparkR？假设我们有下面的列x，我如何从它创建一个DataFrame？## Assumes a running sparkR shellcwDF <- createDataFrame(sqlContext, ChickWeight)似乎有一个通用的toDF函数，但没有方法。知道如何将x转换为单列DataFrame对象吗？

浏览 0提问于2015-12-15得票数 0

回答已采纳

1回答

如何在SparkR中从数据帧创建表

、、、

我找不到任何关于在R中执行此操作的文档。

浏览 0提问于2020-08-12得票数 0

1回答

如何通过SparkR中的行数并行化数据帧？

、、、

我需要在SparkR中并行化数据帧，同时将数据委托给火花工作人员。代码片段：它在控制台上打印以下信息。对于数据处理，每一行都是原子的。我已经将结果转换为数千列的数据框架。现在，每一列都是用于数据处理的原子。但是，将单个列委派给激发员工似乎并不是一个好策略，因为没有明显的绩效收益。

浏览 4提问于2016-01-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

删除SparkR DataFrame中的重复观测

相关·内容

删除SparkR DataFrame中的重复观测

在函数sparkR中删除列

在SparkR中删除DataFrame的列

如何使用SparkR从HDFS加载数据？

dropDuplicates in SparkR

在pyspark RDD中保存删除的重复项

使用sparklyr的回调函数

如何将星火DataFrame列转换为列表？

并行化不工作的sparkR

无法调用sparkRSQL.init函数

使用SparkR删除只具有NA值的列

R和sparkR中的'abs‘函数有什么不同

无法使用SparkR对数据进行子集，只能使用管道约定执行命令

删除sparkR中的输入日期

sparkR中的反序列化错误

在DataBricks中是否存在将R数据文件转换为Spark的大小限制？

有没有可能在没有安装R解释器的情况下在Spark中运行SparkR程序？

如何在DataFrame中创建单列sparkR？

如何在SparkR中从数据帧创建表

如何通过SparkR中的行数并行化数据帧？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐