本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。...1、先解决依赖,spark相关的所有包,pom.xml
spark-hive是我们进行hive表spark处理的关键。...@82, 重复个数69823
重复值为:area@81, 重复个数98317
重复值为:area@84, 重复个数91775
重复值为:area@83, 重复个数72053
重复值为:area@180,...重复值为:area@186, 重复个数13517
重复值为:area@187, 重复个数4774
重复值为:area@184, 重复个数5022
重复值为:area@185, 重复个数6737
重复值为...重复值为:area@98, 重复个数17456
重复值为:area@298, 重复个数12688
重复值为:area@177, 重复个数17285
重复值为:area@178, 重复个数11511
重复值为