我的数据经过两个连续的过滤传递,每个都使用一个布尔值的UDF。第一个筛选移除列在某些广播字典中未作为键出现的所有行。第二个筛选对此字典与当前键相关联的值施加阈值。如果我只在第一次筛选之后显示结果,那么包含“c”的行就不会像预期的那样出现在其中。但是,试图显示第二个筛选的结果会导致u'c‘的KeyError异常。$$anon$1.read(PythonRDD.scala:193)
at or
我使用Spark (Scala)将QA数据从一个关系数据库移动到另一个关系数据库。QA过程包括在源表和目标表之间执行一个完整的外部连接。源表和目标表在键上的数据框架中连接:
val joinColumns = for (i <- 0 to (sourceJoinFields.length - 1)) yield sourceDF.col+(sourceDF.columns.l