知道在ADF数据流中转换将在后台的Databricks集群中运行,在相同管道中的Databricks笔记本上运行相同的转换会有什么不同(在成本和性能方面)?
我猜这将取决于我们如何设置Databricks集群,但我的问题也是理解这个集群将如何在后台运行。它是平台中的专用集群还是共享集群?
发布于 2021-11-15 09:46:08
ADF中的每个活动都由一个集成运行时(VM)执行。如果您正在同步监视Databricks作业,则将为监视您的作业的Integration Runtime付费。
在Databricks中的Notebook执行将作为作业群集进行计费。请创建池并在ADF中使用该池。在databricks中,您将在池概述中看到ADF创建的群集的历史记录。
在创建池的过程中,请注意设置,因为您可能会因空闲时间而被收费。最小空闲时间可以为0,自动终止时间可以设置为较低的值。如果你有一步一步执行notebooks的数据流,那么相同的池可能会更快更便宜,因为databricks不会部署新机器并使用池中的现有机器(如果它还没有自动终止的话)。
在池中的ADF作业和最小空闲设置的屏幕截图上:
https://stackoverflow.com/questions/69971419
复制相似问题