任何机构都可以通过任何基准来测试MapReduce工作流吗?或者一般情况下,BigData工作流基准测试一些工作流系统的性能和准确性,如Oozie?
谢谢
发布于 2015-02-18 02:02:21
可能最著名的MapReduce基准测试是Terasort
。它接受大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模MapReduce作业,其中包括映射器和减速器。它包含在MapReduce中,因此您不必单独安装它。
第一步是使用MapReduce库目录中的MapReduce示例jar,用Teragen
生成输入数据:
hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>
第二步是对生成的输入数据运行Terasort
。此步骤所用的时间是基准测试的结果:
hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>
可选的第三步是使用Teravalidate
验证输出结果是否正确
$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>
从一个群集到另一个群集比较此基准的时间可能非常困难,但它对于比较同一群集中的更改非常有用,例如修改配置或添加新节点。
在this blog entry中有对Terasort
的深入描述。
https://stackoverflow.com/questions/22949890
复制