为了测试/PoC目的,我正在设置Hadoop集群。今天有什么东西是不能用火花作为加工引擎的吗?在我看来,Spark已经取代了MR,而围绕Hadoop构建的所有其他工具/抽象也都与星火兼容(Hive,Sqoop,Flume,HBase,Pig.)--还有其他的限制吗?据我所知,即使是批处理作业,Spark的速度也至少与先生一样快,而且如果您想在将来扩展您的用例(流),那么无论如何您都需要适应Spark。
我之所以问这个问题,是因为到今天为止,大多数的介绍和教程都会教您有关Hadoop和MapReduce的知识。
发布于 2019-03-19 13:17:43
很简单,不,现在没有理由使用MapReduce。火花更快,更容易使用,有更多的持续发展,更多的连接器,更多的用户,更多的优化.
在教程中使用MapReduce是因为许多教程已经过时,但也因为MapReduce演示了在所有分布式系统中处理数据的底层方法。在我看来,任何想要使用“大数据”的人都应该(至少在概念上)理解MapReduce。
https://stackoverflow.com/questions/55241905
复制相似问题