我有五台电脑联网在一起。其中一台是主计算机,另外四台是从机。
每台从计算机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的奴隶中运行四个不同的集群程序。然后,将结果带回主计算机进行进一步处理(如可视化)。
我最初想使用Hadoop。但是,我找不到任何好的方法将上面的问题(特别是输出结果)转换为Map框架。
有什么好的开源分布式计算框架,我可以轻松地完成上面的任务吗?
提前谢谢。
发布于 2018-10-26 14:38:04
似乎您已经在每个节点上存储了数据,因此您已经解决了问题的“分布式存储”元素。
由于每个节点的数据集不同,这也不是一个并行处理问题。
在我看来,您不需要Hadoop或任何其他大数据框架。但是,您可以通过将代码带到数据中来接受Hadoop的哲学。在每个节点上运行聚类算法,然后以所需的任何方式处理结果。如果您在加载数据和在每个节点上运行聚类算法方面也有问题,请注意,但这是一个不同的问题。
https://stackoverflow.com/questions/53004898
复制相似问题