文章/答案/技术大牛

发布

社区首页 >问答首页 >星星之火Java除了方法与左撇子连接返回不一致的结果，可能的错误？

问星星之火Java除了方法与左撇子连接返回不一致的结果，可能的错误？
EN

Stack Overflow用户

提问于 2018-09-24 01:11:05

回答 1查看 387关注 0票数 2

我在Spark dataframes中似乎遇到了一个bug。我用的是火花2.3.1。我已经抓了好几天的头了，我不知道为什么两种过滤不想要的数据的方法会有不同的原因，除了左撇子。

看来，除了函数实际上是一个不同的例外！除在其上调用的数据外，任何重复的都会被删除。

只是想提供这个信息，以防其他人遇到同样的问题！运行the函数将导致结果数据中的唯一数据。要保存原始数据，请确保使用左撇子！

java

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-24 03:17:47

似乎.except()与2.3.0一样充当EXCEPT DISTINCT操作。前面提到EXCEPT的文档不正确，因为行为总是EXCEPT DISTINCT。

如果你比较leftanti的计划

== Physical Plan ==
*BroadcastHashJoin [value#1], [value#4], LeftAnti, BuildRight
:- LocalTableScan [value#1]
+- BroadcastExchange HashedRelationBroadcastMode(List(input[0, string, true]))
   +- LocalTableScan [value#4]

和except()

== Physical Plan ==
*HashAggregate(keys=[value#1], functions=[])
+- Exchange hashpartitioning(value#1, 200)
   +- *HashAggregate(keys=[value#1], functions=[])
      +- *BroadcastHashJoin [coalesce(value#1, )], [coalesce(value#4, )], LeftAnti, BuildRight, (value#1 <=> value#4)
         :- LocalTableScan [value#1]
         +- BroadcastExchange HashedRelationBroadcastMode(List(coalesce(input[0, string, true], )))
            +- LocalTableScan [value#4]

您可以看到，还有额外的HashAggregate步骤来删除重复项。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52471628

复制

相似问题

问星星之火Java除了方法与左撇子连接返回不一致的结果，可能的错误？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星星之火Java除了方法与左撇子连接返回不一致的结果，可能的错误？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星星之火Java除了方法与左撇子连接返回不一致的结果，可能的错误？
EN