假设我有一个pyspark数据帧,其中包含以下列:数组类型的c1、c2、c3、c4和c5。现在我要做的是:(c1)交集(c2 union c3)交集(c2 union c4 union c5)
我可以在一个循环中的两个列上使用array_union,并在withColumn的帮助下不断添加一列如何在PySpark中高效地完成此操作?有没有更聪明的方法来做这件事?
我目前正在做一项数据迁移任务,试图使用pyspark比较来自两个不同数据库的两个数据帧,找出两个数据帧之间的差异,并将结果记录在csv文件中,作为数据验证的一部分。我正在尝试一个性能高效的解决方案,因为有两个原因。大型数据帧和表键是未知的
#Approach 1 - Not sure about the per