我正在使用Databricks为大数据创建一个算法。我想知道为什么我的最后1%的运行过程需要很多时间?我用S3编写结果,111991个数据的结果(在116367个数据中)是在5分钟内完成的,而最后的5000个数据只需要一个多小时!
我能解决这个问题吗?

在下面的图片中,119小时变成120小时,但几分钟后就达到199小时。
发布于 2022-08-26 11:44:48
请检查你是一次写文件还是一块写。如果你在一段时间内写作,那么切换日志将需要时间。此外,检查您是否打印日志,然后它可能需要时间。
https://stackoverflow.com/questions/73492139
复制相似问题