首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >MapReduce工作流基准测试

MapReduce工作流基准测试
EN

Stack Overflow用户
提问于 2014-04-09 07:03:21
回答 1查看 245关注 0票数 0

任何机构都可以通过任何基准来测试MapReduce工作流吗?或者一般情况下,BigData工作流基准测试一些工作流系统的性能和准确性,如Oozie?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2015-02-18 10:02:21

可能最著名的MapReduce基准测试是Terasort。它接受大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模MapReduce作业,其中包括映射器和减速器。它包含在MapReduce中,因此您不必单独安装它。

第一步是使用MapReduce库目录中的MapReduce示例jar,用Teragen生成输入数据:

代码语言:javascript
运行
复制
hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>

第二步是对生成的输入数据运行Terasort。此步骤所用的时间是基准测试的结果:

代码语言:javascript
运行
复制
hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>

可选的第三步是使用Teravalidate验证输出结果是否正确

代码语言:javascript
运行
复制
$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>

从一个群集到另一个群集比较此基准的时间可能非常困难,但它对于比较同一群集中的更改非常有用,例如修改配置或添加新节点。

this blog entry中有对Terasort的深入描述。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22949890

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档