使用Scala在Spark中使用dropDuplicates()和except()方法的问题

、

我与列xcept(filteredDuplicates)有一张桌子当我在Spark shell中运行它时，它工作得非常好，正如预期的那样。但在spark提交中，重复删除不是按排序顺序进行的(即seq_no 3在有效帧中，而1,5在拒绝帧中)。此外，except()在spark submit中也有问题。

浏览 24提问于2017-01-30得票数 1

7回答

根据RDD/火花DataFrame中的特定列从行中删除重复项

、、

假设我有一个相当大的数据集，其形式如下： ('Foo',39,'UK',、第三列和第四列的值删除重复行。删除完全重复的行很简单：而第5行或第6行将被移除。('Baz'

浏览 19提问于2015-05-14得票数 95

回答已采纳

1回答

TypeError dropDuplicates()接受1到2个位置参数，但给出了3个

、、

我已经在Spark 2中播放过流媒体数据。我在Spark网站上发现我可以在watermark中使用dropDuplicates。这是我的带水印的代码，不带dropDuplicates方法： .withWatermark("source

浏览 50提问于2019-07-21得票数 0

回答已采纳

3回答

在Spark scala上优化where请求

、

我是Apache Spark (和Scala)的新手，我想在读取csv文件后立即应用一个简单的sql请求，并将其加载到DF上，而不需要创建额外的数据帧或临时视图或表。这是初始请求： SELECT DISTINCT city from citiesAND year IN ("2017", "2018") 这是我在Scala上

浏览 15提问于2018-12-25得票数 0

1回答

在pySpark中删除重复项的最佳方法

、、

我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧中的重复项。但是由于大量的混洗和数据倾斜，作业被挂起了。为此，我使用了5个内核和30 do的内存。我正在执行dropDuplicates()的数据大约是1,200万行。考虑到数据倾斜和混洗，请给我建议在spark中删除重复项的最优

浏览 0提问于2018-09-25得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

对pyspark dataframe执行重复数据删除时遇到内存错误

、

我对pyspark还是个新手，在对数据帧进行重复数据删除时遇到了问题。我的数据帧中有3个字段: PersonId、PlaceId和ThingId。因此，在这个示例中，我应该得到一个如下所示的数据帧： PersonId PlaceId ThingId2 [C, D, E, F] 7 3从这里开始，我尝试了几种方法。我试着创建一个不同的数据帧，只需删除副本，就像这样。dropped_df = df_prop_<

浏览 10提问于2020-09-02得票数 1

回答已采纳

2回答

“表或视图未找到”错误仅来自火花提交，而不是火花壳。

、

代码逻辑非常简单，从csv加载数据并写入hive，以前在default模式中创建了default表。中运行良好。Spark version 2.3.0在通过spark-submit部署Scala应用程序时，情况并不是这样 <spark.version: Table or view not found: default.datatable_0

浏览 0提问于2019-08-28得票数 2

回答已采纳

3回答

：选择不同的行

、、、、

我尝试了两种方法来找出不同的行与地板，但它似乎不工作。").distinct();Cannot have map type columns in DataFrame which calls set operations Dataset<Row> landingDF = sqlContext.sql("SELECT distinct on timest

浏览 0提问于2019-03-05得票数 4

回答已采纳

1回答

如何根据时间戳属性过滤对象数组(代码替代SQL lag over partition by - command)

、、、、

因此，我正在为在java虚拟机上执行的apache spark编写代码。它有Spark SQL，允许用户在对象集合上编写SQL表达式。我试图查询的SQL命令对于spark的引擎来说太复杂了，所以我试图使用代码而不是SQL来寻找替代方法。： class StreamerEvent { Date streamedAt; } 我需要搜索整个集合，对于每个流和流，这将持续几分

浏览 18提问于2019-08-29得票数 0

回答已采纳

2回答

星火保持在数据集中最多10个重复

、、

我一直在试验一个大数据集与星火。我的数据的基本问题之一是它有重复的，我想删除它们。但我的删除情况有点不同，因为我想保留在我的数据最多10个副本，并删除所有其他。我对.dropDuplicates()函数进行了实验，结果发现它消除了数据集中的所有重复项。任何帮助或指点在这里都很感谢。

浏览 5提问于2020-05-07得票数 1

回答已采纳

2回答

为什么完全输出模式需要聚合？

、

我在ApacheSpark2.2中使用了最新的结构化流，并得到了以下例外： res0: String = 2.2.0 import org.

浏览 1提问于2017-08-18得票数 19

回答已采纳

3回答

在scala中如何将sql查询行中的结果转换为双精度

、、

我尝试获得spark sql查询的结果，并在Scala中为它们做一些计算。val sql_DF = spark.sql("SELECT count(distinct(my_id)) total_id FROM some_ids_table ") val sql_DF01 = spar

浏览 1提问于2019-10-29得票数 0

1回答

如何避免在传递单列时从反重复函数中删除空值

、

我有下面的dataframe，我需要保持空值不被从键列中删除。我知道，如果我们再传递一列，那么我们可以避免删除空值，但是我的问题是，从键列中，我只需要删除重复的值，就不应该删除空值。-----9 8 96 3 我得到的输出如

浏览 2提问于2018-03-08得票数 3

回答已采纳

2回答

火花流dropDuplicates

、、、

从s3位置触发2.1.1 (scala )流json文件。我希望根据json中为每条记录找到的ID列(“event_id”)去复制任何传入记录。我不在乎保存哪一份纪录，即使重复的纪录只是部分的。我使用追加模式，因为数据只是通过spark.sql()方法被充实/过滤，没有按/窗口聚合分组。然后，我使用附加模式将拼花文件写入s3。根据文档，我应该能够使用dropDuplicates

浏览 1提问于2017-07-24得票数 1

回答已采纳

2回答

在dataframe中使用dropDuplicates会导致分区号的更改。

、、、

我有一个很大的dataframe，我用800个分区创建了它。df.rdd.getNumPartitions()当我在dataframe上使用dropDuplicates时，它将分区更改为默认的200。df = df.dropDuplicates()200你对解决这个问题有什么建议吗？我试着将spark.sql.shuff

浏览 5提问于2016-05-26得票数 4

回答已采纳

1回答

Scala/Spark实现非常慢

、、

我们正尝试使用Spark在Scala中实现 (您不需要知道回答这个问题的算法)。import System.{exit, n

浏览 1提问于2020-11-14得票数 4

回答已采纳

2回答

如何从数据文件中删除逻辑副本？

、

假设我有一个dataframe表，其中C1和C2是列名，如下所示：|C1 | C2 ||a | b ||b | a |我希望从上表中删除逻辑副本，即(b，a)行。

浏览 1提问于2018-09-27得票数 1

回答已采纳

1回答

如何部分更新spark数据帧(更新一些行)

、

我使用的是带有Python3的Spark 1.5.2。我在pyspark里有两个数据帧。| 0.5 c|1.6666666666666665现在我想用new_df中的新值更新old_df中的一些行。new_df = new_df.unionAll(old_df).dropDuplicates(

浏览 12提问于2016-08-03得票数 0

2回答

dropDuplicates运算符中使用的是哪一行？

、、

在Spark中使用dropDuplicates函数时，将保留哪一行？火花文件中没有说明这一点。随机？假设在分布式纱线环境中(不掌握本地)

浏览 1提问于2017-06-23得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

根据RDD/火花DataFrame中的特定列从行中删除重复项

TypeError dropDuplicates()接受1到2个位置参数，但给出了3个

在Spark scala上优化where请求

在pySpark中删除重复项的最佳方法

删除spark数据帧中重复的所有记录

对pyspark dataframe执行重复数据删除时遇到内存错误

“表或视图未找到”错误仅来自火花提交，而不是火花壳。

：选择不同的行

如何根据时间戳属性过滤对象数组(代码替代SQL lag over partition by - command)

星火保持在数据集中最多10个重复

为什么完全输出模式需要聚合？

在scala中如何将sql查询行中的结果转换为双精度

如何避免在传递单列时从反重复函数中删除空值

火花流dropDuplicates

在dataframe中使用dropDuplicates会导致分区号的更改。

Scala/Spark实现非常慢

如何从数据文件中删除逻辑副本？

如何部分更新spark数据帧(更新一些行)

dropDuplicates运算符中使用的是哪一行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐