我目前正在处理一个问题,以解决Oozie协调器的问题,该问题将NameNode用于数据检查。作为一个案例研究,我了解到雅虎每天运行超过15000个工作岗位。因此,如果大多数作业都是数据相关的,这将是NameNode的开销。我目前在一个有3-4个节点的集群上工作,基本上是我们自己的笔记本电脑。但我的教授问我,我如何才能如此大规模地验证我的工作。我必须向他提供一些分析,以证明我的解决方案将在该规模上发挥作用。请建议我做同样的选择?
发布于 2013-02-12 14:12:24
可以使用Mumak模拟Hadoop集群。Mumak的代码在0.21版本中是there,而不是在主干中。它是一个contrib模块,所以围绕Mumak没有太多的活动工作或文档。下面是相同的JIRA。另外,看看Ankus项目,它引用了mrsim和mrperf。
到目前为止,这是一个没有太多关注的领域。但是,对于某些人来说,这将是一个很好的话题,可以做一些研究并发布一些代码。
https://stackoverflow.com/questions/14818852
复制相似问题