如何用JAVA实现Spark SQL中基于单列的重复行删除

文章/答案/技术大牛

发布

2回答

、

我需要了解如何使用Java在Spark SQL中基于single从数据框中删除重复行。与普通SQL中一样，ROW_NUMBER () OVER (PARTITION BY col BY Col DESC)。如何将此步骤转换为Java中的Spark SQL？

浏览 11提问于2017-07-25得票数 1

2回答

如何删除流数据中的重复项？

、、

我正在使用spark-sql 2.4.1结构化流与kafka，java8。例如，我的数据集如下所示我需要找出基于ColA ColB ColC的副本，取其中基于ColDate的最新副本，并删除其余的。也就是说，从上面的数据结果应该是如何使用spark streaming来实现？也就是说，我将在流中获取数据，例如...不确定何时出现重复

浏览 2提问于2019-08-06得票数 0

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。import org.apache.spark.mllib.util.MLUtilsval data = sqlContext

浏览 4提问于2017-05-22得票数 0

1回答

Java Spark删除重复项/空值并保留顺序

、

我有下面的Java Spark数据集/dataframe。 Col_1 Col_2 Col_3 ...1上重复的记录。如果第二个记录为NULL，则必须删除NULL (如COl_1 = A)，如果有多个有效值(如Col_1 =B)，则每次只应保留一个有效的Col_2 =2和Col_3 =2。它也会完全删除空值。如何在Java Spark中实现预期的

浏览 17提问于2020-11-25得票数 0

回答已采纳

1回答

如何优化大窗口上的窗口聚合？

、、

Window .orderBy("timestamp")at org.apache.spark.sql.execution.ExternalAppendOnlyUnsafeRowArray.add(BufferedRowIterator

浏览 6提问于2020-01-15得票数 4

3回答

删除字符串中的重复项。

我想删除字符串中的重复项。例如，Predictive Modeling是第一行中重复的值。需要确保删除重复项后，字符串没有额外的, mydf <- data.frame(Keyword = c("Predictive Modeling, R, Python, Predictive Modeling, SQL, visualization, Spark</em

浏览 6提问于2022-03-27得票数 0

回答已采纳

1回答

根据条件从spark数据帧中删除行

我想根据条件从列表的spark数据帧中删除行。条件是列表的长度是一定长度。我曾尝试将其转换为列表列表，然后使用for循环(如下所示)，但我希望在spark内的一条语句中完成此操作，并基于此条件从原始df创建一个新的不可变df。subList in newList: finalList.append(subList) 因此，例如，如果datafra

浏览 25提问于2019-04-30得票数 0

回答已采纳

1回答

OrcRelation不能分配给HadoopFsRelation

、、、

但我无法理解的问题。这是我的代码：import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.SparkSession; import org.apache.spark.sql<

浏览 10提问于2017-02-16得票数 4

回答已采纳

1回答

Spark删除重复项并选择具有最大值的行

、、

我正在尝试删除基于column1的重复项，并选择column2中具有最大值的行。column2的值为"year"(2019,2020等)，类型为"String“。我的解决方案是，将第2列转换为整数，并选择最大值。 Dataset<Row> ds ; //The dataset with column1,column2(year), column3 etc.newDs =

浏览 0提问于2020-11-18得票数 0

2回答

删除sparklyr中的重复行

、、、

我需要使用sparklyr根据另一列中的重复项删除在一列中重复的行。基R法这是一个基本的R方法，它将删除重复<

浏览 7提问于2020-01-12得票数 1

回答已采纳

1回答

嗨，我是新来的瑞迪斯，这里需要帮助。我正在使用java和server 2008和redis服务器。为了与redis交互，我使用jedis作为java。我知道redis被用来存储基于键值的东西。问题背景：我有一个表名“用户”，它存储数据，如id，姓名，电子邮件，年龄，国家。这是sql表的架构。现在，这个表有一些行(也意味着一些数据)。现在，我的主键是id，它用于DB，在应用程序中使用它对我没有任何用

浏览 1提问于2014-09-12得票数 9

2回答

从Dataframe到DB的批处理插入忽略Pyspark中失败的行

、、

我正在尝试使用JDBC向Postgres插入spark。postgres表对其中一个列具有唯一的约束，当要插入的df违反约束时，整个批处理将被拒绝，并且火花会话关闭，给出一个错误的重复键值违反唯一约束，这是正确的，因为数据是重复的(在数据库中已经存在)。需要插入不违反约束的数据行，忽略失败的行，而不会导致整个批处理失败。所用的代码是： mode

浏览 1提问于2018-07-31得票数 2

1回答

以编程方式向Spark1.6.2客户端添加Databricks Spark

、、、

这里最重要的是，总是在客户机中，我不能触发-提交我的脚本，但是我需要以Python 的形式运行这个脚本。在代码的某些地方，我需要将CSV文件作为(即使用SQL上下文)加载到HDFS中。如您所知，Spark1.6.2不支持基于CSV的数据格式，必须使用。我知道数据库的火花-csv罐必须下载并放置在某处。问题是:在哪里？这是客户端计算机中的需求，还

浏览 2提问于2017-11-24得票数 1

回答已采纳

2回答

从SQL表中查找部分和准确的重复

、

如下表所示，有一些基于Col1和Col2值的部分重复，还有一些基于Col1、Col2和Col3的完全重复。1002 Tom 1503 Bob 100我想在两个独立的输出中捕获部分和精确的重复，而忽略像2和4这样的非重复行

浏览 2提问于2020-07-05得票数 0

回答已采纳

2回答

Spark联合列顺序

、、、

我最近在Spark遇到了一些奇怪的事情。据我所知，根据spark dfs的基于列的存储方法，列的顺序实际上没有任何意义，它们就像字典中的键。| 1| asd|| 3| f1f||as

浏览 3提问于2019-07-09得票数 26

回答已采纳

1回答

是否有一个等同于“优化”的方法，允许从中的非托管表中删除副本

、、

我想从一个非托管表中删除重复的行。，我知道有一些命令，比如，df.dropduplicates()，，可以处理dataframes，但是有一个命令可以对底层数据执行同样的操作吗？因此，例如，优化工作如下：spark.sql("OPTIMIZE <TABLE>") 是否有类似于：spark.sql("DELETE DUPLICATES <TABLE>")之

浏览 3提问于2021-07-08得票数 0

回答已采纳

1回答

删除Excel中超过第二行的重复行，基于单列

、、

我有一个包含重复行的Excel电子表格，我想为一个给定的用户保留最多两行。我如何保留两个重复的行，然后删除所有额外的行，如果它们在列C中具有相同的值？下面是一个示例--我想保留突出显示的两行，但删除其余行：

浏览 2提问于2016-03-23得票数 0

4回答

Spark sql中的变量

、、

因为在SQL Server中，我们可以像declare @sparksql='<any query/value/string>'一样声明变量，但是在spark sql中可以使用什么替代方法。

浏览 541提问于2020-11-26得票数 3

4回答

如何最有效地将Scala DataFrame的行转换为case类？

、、

一旦我在Spark中获得了一些Row类，无论是Dataframe还是催化剂，我都想在代码中将其转换为case类。这可以通过匹配完成。someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} 但是，当一行中有大量的列时，比如十几个双打，一些布尔人，甚至偶尔的空列，情况就变得很糟糕了。我只想能-抱歉-把排到myCaseClass.这是可能的，还是我已经有了最经济的语法？

浏览 9提问于2015-01-27得票数 55

回答已采纳

2回答

如何在spark中用java将两个数组列合并成一个删除重复的数组

、、

我想用java把两个数组合并成一个数组，并在spark 2.2中删除重复的数组。 Dataset.show [1,2,3] | [2,3,5] |[1,2,3,5] 如何才能实现这个spark java?.

浏览 2提问于2018-07-18得票数 0

点击加载更多