我在google dataproc上运行apache spark java作业。该作业创建spark上下文,分析日志,最后关闭spark上下文。然后为另一组分析创建另一个spark上下文。这种情况会持续50-60次。有时我会反复收到错误Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources。 根据对SO的回答,当启动作业时没有足够的可用资源时,就会发生这种情况。但这通常发生在工作中途
我面临着在红移频谱上频繁Disk Full error的问题,因此,我不得不反复扩容集群。缓存似乎会被删除。 理想情况下,我希望向上扩展以保持缓存,并找到一种方法来了解查询需要多少磁盘空间。雅典娜花了10分钟扫描了700G然后告诉我Query exhausted resources at this scale factor 编辑2:我使用了一个16 TB的SSD集群。