在代码的某个时刻,我有两个不同类型的数据集。我需要一个人的数据来过滤数据到另一个人。假设从这一点上没有办法改变代码,有没有办法在不从report2Ds收集所有数据并在Spark函数中使用它的情况下完成我在下面的注释中描述的事情?data from report2Ds where report2.getEmployeer().equals(company);
}, kryo(Report3.class)); 任何建议,甚至在更好的设计上的</e
我通过处理每个分区来处理流(将事件保存到HBase),然后将每个RDD中的最后一个事件从驱动程序压缩到接收方,这样接收器就可以依次将其压缩到源。(RDD.scala:602) at org.apache.spark.api.java.JavaRDD.mapPartitions(JavaRDD.scala:3