我实现了几个(大约十几个) MapReduce任务,每个任务都是由一个简单bash脚本执行的工作流的一部分。出于各种原因,我想将工作流转移到Apache。
但是,我不清楚如何在不重新实现的情况下以Crunch函数的形式运行我的MapReduce任务。是否有一种简单的方法可以将Map和Reduce实现作为Crunch函数使用?我还想维护工具实现,以便MapReduce任务既可以独立运行,也可以作为Crunch工作流的一部分运行;有什么方法可以这样做吗?
谢谢你的见解。
发布于 2016-01-26 22:04:16
对于那些可能会遇到这种情况的人,在Crunch库中有一个最少的文档化的API。然而,这是相当简单的。
见此处:https://crunch.apache.org/apidocs/0.10.0/org/apache/crunch/lib/Mapreduce.html
https://stackoverflow.com/questions/34912339
复制相似问题