有人建议我为我的公司学习Hadoop,所以我想构建一个测试环境。
我工作的公司有一个带有VMware vCloud基础设施的数据中心,用于向其他公司出售私有云。
我可以使用一些CPU、RAM、网络和存储,但在一个小型测试环境中,我似乎找不到Hadoop的基本要求。
我想把一个VM分解成一个单一的节点集群,做一些简单的工作,比如分析1000 s PDF文档中的关键词,提取段落并将其重新格式化为一个HTML文档。
有没有人建议我应该为这个VM提供的最低要求,或者我在哪里可以找到这些信息。
谢谢。
发布于 2013-11-21 18:58:43
如果您只是想了解Hadoop是如何工作的,我建议在VM上获取一个可用的发行版。它们被设计成一个小的学习环境,使您能够在一个节点内运行一个伪分布式集群。
也许还有其他人,这些正是我能从头顶上想到的。
如果您希望构建自己的VM,答案是:这取决于。
从8-16 of的RAM、几百of的磁盘空间和2-4个cpu核开始,你可能会很好。这足以让您在伪分布式配置中工作。
如果您要构建一个小型集群,您可能需要4个节点:1个namenode (2-4G内存,1-2个CPU),3个datanodes (4-8GB内存,任意空间)。这将为您提供一个运行HDFS和Mapreduce环境,并为您提供设置和运行集群的经验。如果您选择这条路线,您可能会想要签出Cloudera经理或安巴里与霍顿工厂。
编辑:
我几乎忘了:vmware Serengeti可能是您感兴趣的,因为您是在VMware基础结构中。
https://serverfault.com/questions/547767
复制相似问题