我在我的jupyter笔记本中创建了第一个集群:
from dask.distributed import Client, LocalCluster
cluster = LocalCluster(name='clus1',n_workers=1,dashboard_address='localhost:8789')
client = Client(cluster)然后用熊猫阅读我的数据。并做了一些预处理。
在那之后,我在第二本笔记本上创建了第二组。
from dask.distributed import Client, LocalCluster
cluster = LocalCluster(name='clus2',n_workers=1,dashboard_address='localhost:8790')
client = Client(cluster)现在,我想将数据从一个集群获取到另一个集群。
有什么办法可以绕过吗?
发布于 2022-07-12 02:55:33
正如@mdurant在注释中所指出的,另一个选项(如果适用于当前问题)是重用同一个集群:
from dask.distributed import Client, LocalCluster
cluster = LocalCluster(name='clus1',n_workers=1,dashboard_address='localhost:8789')
client = Client(cluster)
client.write_scheduler_file('tmp_scheduler.dask')然后,在相关部分中,您可以连接到集群(从多个笔记本):
from dask.distributed import Client
client = Client(scheduler_file='tmp_scheduler.dask')这避免了在集群之间传输文件的需要(因为数据位于同一集群上)。
https://stackoverflow.com/questions/72937980
复制相似问题