我在HDFS中有两个文件(非常简单): 测试: 1,Team13,Team3 test2: 11,Player1,Team132,Player1,map)
for i in test_join.collect(): print(i) 但是当我尝试查看join RDD时,我得到了以下错误: File "/usr/lib/spark/python/pyspark
我有许多正在执行联接的列,这些列有时可能包含数十亿行空值,因此我想对这些列进行盐化,以防止在Jason的文章:中提到的联接后出现倾斜。我在Python中找不到类似的例子,语法也不一样,我无法理解如何翻译它。我大概有:big_neg = -200
for column in key_fields: #key_fields is a list