在我的代码中,有一个dataframe是我从一个hive表创建的。我用函数过滤器做了一个简单的过滤器。但结果是随机的:我多次执行包含过滤器的同一个单元格,有时返回一行,有时不返回。我确信在预期的结果中只有一行。并且没有同时在源文件上的其他工作。df = spark.sql("select id from hive_table limit 100")
df.filter(col('id&
我有一个spark工作,随机采样我的输入数据。然后,我为输入数据生成bloom过滤器。最后,我应用过滤器并将数据与数据集A连接起来。
由于采样是随机的,因此应该只执行一次。我可以在第一步的Spark DAG中看到一个绿色的缓存步骤,但连接仍然是从数据加载和随机采样开始的。我还发现,当工作进程内存不足时,缓存的数据可以被逐出,这是我没有想到的。filter and join input data with datase
我在Spark2.2中使用了一个dataframe,并在其中加载了数据,我在过滤器函数中使用&& operator,它使用多列。错误的意思是错误: value &&不是字符串的成员
这是我的密码。scala> val orders = spark.sparkContext.textFile("D:\\SparkExamples\\retail_db\\orders\\part-00000")scala> val ordersSchema =