由于你的用户都是独立的，这显然是一个令人尴尬的并行问题。您希望将同一任务(DBSCAN)运行数百万次。有许多方法可以实现这一点。如果你有一个带锁的网络文件系统，你可以使用Spark (虽然我会考虑使用一个基于Java的工具，比如ELKI -你可能需要确保你在用户上而不是在每个用户内并行)，MapReduce，甚至Makefiles带锁。关键因素是您的数据是如何组织的。无论是为所有工作节点并行读取数据，还是通过主节点路由所有数据(bad)，都会产生巨大的差异。您需要将数据高效地提供给工作人员，并需要存储聚类结果。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51347015

复制

相似问题

问DBSCAN集群python -在多个集群任务上并行运行
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DBSCAN集群python -在多个集群任务上并行运行EN