本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。...1、先解决依赖,spark相关的所有包,pom.xml
spark-hive是我们进行hive表spark处理的关键。...重复个数2362
重复值为:area@86, 重复个数264487
重复值为:area@181, 重复个数2927
重复值为:area@85, 重复个数230484
重复值为:area@88, 重复个数...重复值为:area@186, 重复个数13517
重复值为:area@187, 重复个数4774
重复值为:area@184, 重复个数5022
重复值为:area@185, 重复个数6737
重复值为...92, 重复个数55877
重复值为:area@95, 重复个数40933
重复值为:area@94, 重复个数32564
重复值为:area@290, 重复个数300
重复值为:area@97, 重复个数