我有一个火花处理过程,它处理每个作业大约100万个信号,并将这些行与一个巨大的表(50亿行)连接起来。内存中的整个表大约是500 is,所以我想知道是否可以只将相关的行加载到内存中,即
val fileIds = incomingSignals("fileIds").dropDuplicates()
val df = spark.read.parquet(fileLocation).where(fileIds.contains(col("fileId")))所以我的问题是:
发布于 2022-11-20 07:20:23
在filter子句中包含超过100万行的
explain命令查看查询创建的详细物理计划。。
https://stackoverflow.com/questions/74496897
复制相似问题